在AI战场上,OpenAI专注于Scale Law(规模法则),DeepMind专注于能力分级,盛大集团、天桥脑科学研究院创始人陈天桥的MiroMind选择了另一条“道路”,提出“通用推理引擎”的新定位。
梳理其博文可见,MiroMind的战术清晰:放弃“全知全能”的幻觉,承认模型会出错,引入“自我纠错”机制,依靠外部反馈闭环来生存。通过小参数,强推理,MiroMind的BrowseComp案例显示235B参数的模型通过Agent交互可以战胜更大模型,证明“推理能力”可以通过架构创新而非单纯堆算力来实现。算力用途,不再是一次性生成长文,而是将算力用于“时间序列上的反复求证”。
陈天桥将上述过程比作“逻辑长征”。MiroMind的目标不是做一个聊天机器人,而是“可审计、可验证的通用问题求解器”。当所有大模型在争夺 C端用户注意力时,MiroMind正瞄准科研、工业、金融等B端高容错门槛的“深水区”。以下是陈天桥“我心中的AGI是什么”日志(节选),看看他想如何造一把精准剔除谬误的“手术刀”。
言语道断,因果自现——我心中的AGI是什么(节选)
过去这一两年,我们亲眼看着大模型的语言能力以肉眼可见的速度跃迁:写作、总结、对话、问答、解题,越来越“像人”;HLE之类的评测分数一再刷新纪录,连奥数级别的题目也能被系统性攻克。于是一个看上去顺理成章的结论开始流行:“所谓AGI、大一统的通用智能,大概也就差不多了。”但在我看来,这是一场美丽的误会。
为了把这件事讲清楚,我借用一个比喻:今天主流的大模型,更像是“文科大模型”。它以语言生成与文本一致性为中心,把知识组织成“像真的叙述”和“像对的答案”。它的价值在于“模拟”:它能理解我们的委婉与修辞,能生成优雅的文字、逼真的对话、动人的故事;它会在教育、沟通、内容生产上变成新的基础设施,像电、像水,润物无声。但即便它能解奥数、HLE也能拿高分,这些胜利也大多发生在封闭系统里:题目定义明确、规则固定、对错可判、反馈即时。
但我一直坚信,人类真正需要AI去对抗的,是衰老、疾病、能源、材料、气候这些问题;这些战场不在考试题的封闭世界里,没有标准答案等你生成,只有现象、噪声、偏差、缺失变量与缓慢反馈;正确不是“写出来”的,而是被外部世界“确认出来”的。封闭世界的高分,证明了推理工程的成熟,但并不代表已经拥有了稳定的知识生产机制;高水平解题固然是走向发现的必要基础,却远非充分条件,因为真正决定未来的,不是封闭的叙述,而是那条冰冷而精确的因果红线;它关心的不是“说得对不对劲”,而是“这个假设能不能被现实否决或确认”;它的终极产物不是新作品,而是新知识——新的定理、新的材料、新的药物、新的工艺、新的工程结构。我把这种范式称为“理科大模型”。它的价值在于“发现”。
真正决定AGI应该是什么,取决于我们的价值取向:我们究竟更在意一个能理解所有修辞,还能取代人类工作的“灵魂伴侣”,还是更迫切地需要一个能帮我们撕开迷雾、照亮未知,创造价值的“因果明镜”?我认为是后者。实现AGI不是为了再造一个更会聊天的会生成的系统,而是为了打造一种“会发现”的智能。
那么,我心目中AGI目标究竟要做什么?用一句话概括:它是一个高可信、可验证、可纠错的通用推理引擎。在工程上能够做到三百步以上的复杂推理后,依然维持接近99%级别的整体正确率,并通过形式化和工具链把每一步推理“钉死”为可检查的证据,最终对任意复杂问题给出闭环解决方案。
为什么我们死磕“300步”?我们必须先定义推理的最小单位——标准原子步,作为可审计的基本推理单元。每一步只执行单一逻辑操作,依赖最小必要输入,其结果可以通过工具或规则直接检验。按照这个标准,现在的大模型单步推理准确率最高能冲到98%,哪怕每一步都能做到这个最高水平,300步后的端对端成功率也只有0.23%,已经接近归零。这意味着在300步之后,概率和运气基本失效,系统必须依赖可检验的推理与外部反馈闭环,而不是靠“看起来合理”的续写去蒙混过关。所以我认为300步是独立解决复杂现实问题的“跨度起点”。
为什么99%必须是硬杠?因为发现式系统不是用来“聊天”,而是要进入现实成本区间:实验、工程、医疗、决策。低一个点的可靠性,就意味着高频的错误下注;而现实世界的错误,不是“答错题”,而是浪费实验窗口、烧掉工程预算、甚至造成不可逆的损耗。
我心目中的AGI,是能在300步的逻辑长征中,靠自我纠错熬过“概率死亡”,最终抵达地图之外的起点。从这里开始,AGI就可以在科学、工程、决策规划等任意领域里,作为一个可审计、可验证的通用问题求解器存在。
MiroMind已经在这条路走出了第一步。以BrowseComp为例,MiroMind仅用235B参数模型就给出了SOTA的成绩,它的意义不在于“分数本身”,而在于证明了一个工程事实:我们正在把推理从“单次生成”推进到“时间序列上的反复求证”。更具体地说,我们不是依赖一次性长链思考去赌对答案,而是训练模型在更深、更频繁的agent/环境交互中不断获取外部反馈并纠错,让推理过程逐步变成可审计的证据链。对我们而言,这就是“通用求解器”的第一块地基,然后在99%可靠性前提下逐步推到300步以上的跨度。
我心中的AGI就是一个无限接近“大圆镜智”的智能系统,不迷恋漂亮的语言,而是追问事实的真相是什么;不急着给出答案,而是去求证背后的因果是什么。在一个被语言和叙事塞满的AI时代,我们需要一面只对“因果和真相”负责的镜子。文/陈天桥(盛大集团创始人)
编辑:袁炯贤