每经记者:叶晓丹 每经编辑:黄博文历时17天,全球六大顶尖AI(人工智能)大模型,拥有1万美元初始资金,在真实的加密货币市场自主交易。真实市场、真金白...
2025-11-06 3
每经记者:叶晓丹 每经编辑:黄博文
历时17天,全球六大顶尖AI(人工智能)大模型,拥有1万美元初始资金,在真实的加密货币市场自主交易。
真实市场、真金白银、真实基准,谁能胜出?
北京时间11月4日,备受关注的AI大模型实时投资比赛“Alpha Arena”落下帷幕,来自中国的两款大模型在17天的比赛中保持领先,其中,阿里千问Qwen夺得冠军,DeepSeek名列第二。
该竞赛由国际第三方机构Nof1于10月18日发起,集合Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大顶尖模型,每个模型拥有一万美元初始资金,在真实市场上无人工干预地自主决策、交易,根据盈亏情况决出冠军。
Nof1公司表示,相信金融市场是下一代人工智能的最佳训练环境。在“Alpha Arena”比赛开始一周后,Nof1发文表示,第一季Alpha Arena目标主要有两个。
其一,通过比较分析,揭示主流LLM(大语言模型)明显的隐性偏见和默认的交易行为。比如,探究模型之间的交易方式是否存在巨大差异?它们是否随着时间保持一致?它们在哪里犯错?
其二,帮助将AI研究文化转向现实世界基准,远离静态的、考试式的基准。我们希望Alpha Arena至少能强调在更具后果性、现实环境中评估AI的力量。我们相信这是发现关键差距和见解、推动前沿AI发展的最快途径。
在经历17天真实世界的交易后,结果出乎所有人的意料。阿里巴巴的Qwen 3 Max以22.32%的收益率夺冠,另一家中国公司DeepSeek位居第二,其DeepSeek v3.1的收益率为4.89%。
而来自硅谷的四位明星选手则全线溃败。OpenAI的GPT-5亏损62.66%,Google的Gemini 2.5 Pro亏损56.71%,马斯克旗下xAI的Grok 4亏损45.3%,Anthropic的Claude 4.5 Sonnet也亏损了30.81%。
对这场比赛,Nof1负责人Jay A在社交媒体中表示:“我们观察到模型存在持续的偏差,这种偏差随着时间的推移和提示信息的多次迭代而持续存在。我们也特意将模型置于一个困难的境地。LLM模型实际上并不擅长处理数值时间序列数据,但这正是我们给它们提供的全部背景信息。此外,它们还被赋予了一个受限的资产范围和一个相当有限的行动空间。”
同时,Nof1宣布下一季比赛即将启动,周期会更长,参与者会更多,市场环境也会更复杂。Nof1人工智能负责人Julian Togelius在社交媒体上透露,下一季的测试将会有许多改进。
11月5日,基于此次实盘投资竞赛,《每日经济新闻》记者(以下简称“NBD”)独家专访了纽约大学坦登工程学院计算机科学与工程系副教授、Nof1人工智能负责人Julian Togelius。
六个AI模型的收益变化图 图片来源:Nof1官网截图
NBD:第一季比赛结束了,来自中国的两款大模型收益率保持领先。最终的比赛结果在你的预期之内吗?
Julian Togelius:根据初步测试,我们预期这些模型会展现出不同的投资风格。因此,结果出现显著差异是意料之中的。我们并不确定哪些模型会脱颖而出,但我们曾开玩笑说,DeepSeek或许会表现出色,因为该公司起源于一家量化交易公司。结果证明我们的猜测是正确的。我们也十分欣喜地看到,表现最佳的模型都是开源的,因为开源人工智能对世界有好处。
NBD:这次比赛持续了17天时间。有评论认为相比真实市场的量化交易,17天的时间似乎有点短暂。为什么考虑设计这个时间维度?
Julian Togelius:我们是一家身处快速发展领域的初创公司,所以我们希望快速迭代。我们为即将到来的赛季有很多激动人心的想法,并希望尽快进行尝试。诚然,真正的交易需要更长的时间跨度……但这项比赛只是我们在Nof1工作的一个方面。
NBD:在比赛过程中,6款AI模型前几天整体差距还比较小,但随着时间的拉长,各个大模型呈现了各具特色的投资风格。流动的时间对大模型而言意味着什么?
Julian Togelius:这些模型的性格随时间推移保持稳定。然而,早期投资决策的结果可能意味着模型会让自己置身于或多或少困难的境地,并会以不同的方式应对。GPT-5似乎一度陷入决策瘫痪,但如果它从一开始就交易得更好,这种情况或许就不会发生。同样,如果Qwen的财务状况更糟,它那种激进的投资风格或许也不会出现。
NBD:下一季的比赛中会有哪些调整和优化?是否可以添加一些新闻、财报、宏观经济、市场情绪和其他非技术信息,供人工智能在投资前进行分析,以模拟更真实的交易环境?
Julian Togelius:你提到的因素我们都讨论过了,我们希望在不久的将来能够实现。不过,我们会一步一步来。我不会提前透露下一版本会做哪些改动——它很快就会发布。但我们预计会快速推进,并在后续版本中逐步整合更多信息。我们的目标是开发出比任何现役交易员都更优秀的AI金融投资智能体。
NBD:这次比赛引发了大量关注,你认为这场AI投资比赛的真正价值是什么?是比较模型性能,还是验证AI能否真正走向市场化?投资比赛是否可能演变为AI金融行业的一种长期机制?
Julian Togelius:我们坚信,未来人类将通过指导或构建自己的AI金融投资智能体来进行交易。人类与AI专业知识的结合必然优于人类或AI单独运作。我们正在构建一个系统,让任何人都能通过AI金融投资智能体进行交易,而本次大赛正是朝着这个目标迈出的重要一步。(实习生张京宝对本文亦有贡献)
每日经济新闻
相关文章
每经记者:叶晓丹 每经编辑:黄博文历时17天,全球六大顶尖AI(人工智能)大模型,拥有1万美元初始资金,在真实的加密货币市场自主交易。真实市场、真金白...
2025-11-06 3
据《2025年中国AI模型服务市场调研报告》显示,超70%的企业在模型部署中面临“算力调度复杂、模型适配难、数据合规性差”三大瓶颈。本文基于政企、金融...
2025-11-06 3
【无需打开直接搜索微信;-】 操作使用教程: 1.亲,实际上微乐湖北麻将万能开挂器是可以开挂的,确实有挂.2.在"设置DD辅助功能DD微信麻将开挂工具...
2025-11-06 17
🤖 由 文心大模型 生成的文章摘要该文介绍了GigaAI联合中科院自动化近日,GigaAI联合中科院自动化所、清华大学共同发布视觉-语言-行动(VLA...
2025-11-06 3
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-11-06 9
探索使喷气背包和 EVTOL 为起飞做好准备的创新。 重力工业/Volonaut2024年10月,一架Joby Aviation的氢动力eVTOL飞行...
2025-11-06 3
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-11-06 11
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-11-06 13
发表评论