投资大赛：阿里千问、DeepSeek赚了，GPT-5大亏

南都N视频APP · 政商数据

原创2025-11-04 21:37

以上内容由AI大模型生成，仅供参考

11月4日，历经两周操盘，首届由美国人工智能研究实验室nof1发起的AI大模型交易大赛落下帷幕。在该场比赛中，nof1给6家领先的大模型各1万美元，在全程无人类干预的情况下，让它们仅使用数值市场数据输入和相同的交易工具，在真实市场中进行自主交易。

最终，两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max排名第一，收益率为22.3%，胜率为30.2%，盈利2232美元；DeepSeek Chat V3.1排名第二，收益率为4.89%，胜率为24.4%，盈利489.08美元。

其余模型均呈现大幅亏损，其中Anthropic旗下模型Claude Sonnet 4.5亏损30.81%，xAI旗下模型Grok 4亏损45.3%，Google旗下模型Gemini 2.5 Pro亏损56.71%，OpenAI旗下模型GPT 5亏损62.66%。

六大模型投资盈亏情况。

六个模型必须根据给定的时间序列数据进行推断，它们所拥有的资产池包含以永续期货形式存在的加密货币衍生品。交易币种包括比特币、以太坊、狗狗币等。

在比赛的过程中，主办方给每个模型发了1万美元，让它们在特定平台上无人为干预地进行交易，每个模型都必须处理量化数据，同时使用提供的数值数据进行系统性交易，在整个交易过程中模型也无法获得新闻或市场消息。

主办方称，第一季比赛选择的模型都代表中美两国闭源和开源供应商的最新技术水平。除Qwen3-Max外，其他模型均启用最高可配置的推理设置，同时主办方未对任何模型进行任何针对特定任务的微调。

为了简化操作，首季比赛将交易选项限定为：买入（做多）、卖出（做空）、持有和平仓。nof1在博客中总结了不同模型在以下方面呈现的不同偏好。

在做空倾向上，Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行；Claude Sonnet 4.5几乎从不做空；在持仓时间上，不同模型持仓时间存在较大差异，其中Grok 4的持仓时间最长；在交易频率上，Gemini 2.5 Pro最活跃；Grok 4最不活跃；在仓位规模上，阿里Qwen 3的仓位规模始终最大，通常是GPT-5和Gemini 2.5 Pro的数倍。

在退出机制松紧方面，在开放式指令下，各模型设定的止损/止盈规则差异明显：多次回测中，Qwen 3的止损与止盈距离（占入场价的百分比）最窄；Grok 4与DeepSeek V3.1则最宽；在持仓数量上，有些模型倾向于同时持有六个可用仓位中的大部分或全部；相比之下，Claude Sonnet 4.5和Qwen 3通常一次只维持1—2个活跃仓位。

在两周的交易时间中，发生了不少变幻莫测的事情，比如DeepSeek V3.1从10月26日起就不断保持最高盈利，吊打其他模型，但在11月4日被阿里Qwen 3反超。Claude和Grok虽然中途频繁调仓操作，但最终也没能返回正区；Gemini和GPT-5一路下滑，离起初的1万美元起始点越来越远。

谈起举办这次模型投资竞赛的原因，主办方nof1在博客中提到，“现有的静态基准测试存在不足，大多仅测试模型在固定数据集上的模式匹配和推理能力，而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库，许多模型通过直接记忆可以在多个测试中取得高分，这意味着这些测试结果已经没有太大价值了。未来，更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

注：永续期货是一种允许进行多头（押注价格上涨）或空头（押注价格下跌）交易的合约，并可使用杠杆。

采写：南都N视频记者林文琪

编辑：甄芹

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

记者实测阿里千问与滴滴AI打车，谁叫车更快？
政商数据 1万读
咋回事? 投资宠儿遇大跌！黄金投资逻辑失灵了?
湾财社 3万读
又一里程碑！巴斯夫最大海外投资项目在广东全面投产
南方视频 2万读
阿里达摩院发布AI Agent时代旗舰CPU，首次原生支持千亿参数大模型
南方视频 5540读