时隔半年,又一家只有两三百人的中国AI创业公司给美国科技圈带来冲击波。他们的新模型K2让美国科技圈意识到,中国人在计算资源限制下仍然能持续做出世界级的创新。
7月11日晚,五位清华毕业生联合创立的中国AI公司“月之暗面”,正式发布并开源了万亿参数的Kimi K2大模型。
K2发布后因为强大的编程、智能体任务性能以及实惠的API价格在海内外科技圈逐步引发热议,美国知名AI搜索公司Perplexity CEO称他们会在 Kimi 新模型上继续进行后训练。知名编程IDE工具,开源的Cline、微软Visual Studio Code等也纷纷宣布接入;云服务公司,金山云、硅基流动、together.ai等陆续宣布上架 Kimi K2模型。
有学者也指出K2模型引发的“Kimi 冲击波”应该引起西方科技圈的再一次重视和觉醒。伯克利AI博士、艾伦人工智能研究所科学家内森兰伯特7月14日撰文称,今年年初的DeepSeek R1更像是人工智能发展轨迹中的前传,接下来像Kimi K2 这样的模型证明中国在资源限制下可以持续做出惊人的世界级创新,西方世界的大部分地区应该觉醒了,中国正在继续接近或已经达到模型性能的绝对前沿,而西方在开放模型上已经落后得更远了。
Kimi K2背后的公司月之暗面是很有代表性的一家中国AI创业公司,2024年初获得当时国内大模型诞生的最大笔融资,被阿里、红杉等著名资本争投,杨植麟还和梁文峰、何凯明一同被网友称为广东AI三杰。但今年,春节DeepSeek横空出世Kimi变得格外低调,在外界看来竟没了声音。
Kimi时刻到了?K2爆火海外
这几天,Kimi新模型K2再一次刷屏海外技术圈。上周五晚,月之暗面正式发布K2开源大模型。作为Kimi最新MoE基础模型,K2总参数量达到了1T,激活参数量为32B,在编程能力、工具调用能力等方面,超越其他开源模型,接近甚至部分超过了OpenAI、和谷歌的全球顶尖闭源模型。
该模型发布后,美国AI公司Perplexity CEO发帖说,Kimi模型在他们的内部评估中表现良好,将要在K2大模型上开展一些后训练,上一次发生这种事情,还得回到今年1月DeepSeek狂卷冲击波的时候。有意思的是,Kimi K2发布后,OpenAI CEO Sam Altman也官宣要推迟原定这周发布的开放权重模型,理由是仍需补充安全测试与高风险区域审查,且未确定延期时长。
这一次,Kimi K2大模型实行了开源策略。HuggingFace联合创始人Thomas Wolf在 K2发布后也感叹,K2实在令人难以置信,开源模型不断突破极限在性能前沿对最新的闭源权重模型发起挑战,并且价格只需要几分之一。
AI美术工具MagicPath的CEO Pietro Schirano用完也连发好几条博文,点赞K2在工具调用和agent方面的能力,他认为这是自Claude 3.5 Sonnet以来,自己用过的最舒服的模型。
Kimi K2为何引发海外科技圈疯狂转发?Hyperbolic labs的联合创始人兼CFO Yuchen Jin发博提到,K2已经实现了训练峰值为0,这是非常疯狂的事情。日本AI新秀Sakana AI Labs创始人也发博提到自己被Kimi K2的损失曲线征服了,要知道,训练峰值和损失曲线如果能达到很好的效果,就证明这个模型效能非常高,稳定性也很强。
除了在海外科技圈爆火以外,有学者也指出Kimi K2带来的“DeepSeek 时刻”应该引起西方科技圈的再一次重视和觉醒。
伯克利AI博士、艾伦人工智能研究所科学家内森兰伯特7月14日撰文称,今年年初的DeepSeek R1更像是人工智能发展轨迹中的前传,接下来像Kimi K2 这样的模型带来的DeepSeek 时刻将陆续有来。“如果一个‘DeepSeek 时刻’没有让我们醒来,我希望这一次我们能够醒来,不要等到第三次。西方世界的大部分地区都应该觉醒了,中国正在继续接近或已经达到模型性能的绝对前沿,而西方在开放模型上已经落后得更远了。”
基础模型竞争转向Agent和编程能力
Kimi K2是一款具备更强代码能力、更擅长通用Agent任务的MoE 架构基础模型,代码能力和Agent的自主工具使用能力是此次K2发布的一大重点,同时也是全球大模型厂商正在发生的转变。
当用户将13万行的原始数据丢给K2,根据实测案例,它可以帮你分析远程办公比例对薪资的影响,还自动生成统计图表与回归模型解读,并用统一色调做出相关专业图表,整理成报告。
月之暗面方面也提到,Kimi K2目前只是做到成为构建通用Agent能力的坚实基础,但不可否认通用Agent还需要更高级的能力,比如思考和视觉理解,未来这些能力会陆续开放。
此外,根据南都记者的实测,在最新发布的 K2大模型中,Kimi写作和风格化能力也有所提升。
当输入要求“面对广东35度的大热天,请K2帮我们写一条吐槽的微信朋友圈,要求既通过各种环境描写突出天气很热、人很难受,又要表达自己很烦、求领导不要再给自己安排工作的心情,且要小心分寸,让领导不要一上火把自己给裁了,顺带请推荐一下朋友圈的配图带上什么好一些。”
Kimi K2自行开始用对比、比喻等手法发挥,并给出了配图建议,语言基本能覆盖给出的要求。不过,在这个案例中,K2的回答如同网友对DeepSeek的评价一样,显得有些用力过猛,这似乎也是所有chatbot的通病,应用时还是需要人为根据具体情境进行微调。
提高难度,要求Kimi K2给讲一个简短的“恐怖故事”,要求以工作的办公室为地点,用简短、三百字的形式,不要出现“鬼”的字眼又需要有文学性,达到让人细思极恐的感觉。
在这个案例中,Kimi K2给出了一个颇具寓言色彩、警示意义的小短篇,用短短165个字节,讲述了夏天加班人都懂的“恐怖”——空调坏了、加班到深夜,人类因加班最后变成了荒诞怪异的“机器人”,文字表达确实有了一定提升。
竞争之下,Kimi需要继续证明自己
经两年多的狂飙突进,大模型行业正在快速收拢。在海外,大模型决赛圈被收拢至OpenAI、谷歌、Meta、Anthropic和xAI五家公司,各家的发布也呈现你追我赶的态势。在国内,竞争也从未停止。
今年1月20日,DeepSeek发布R1引爆全网之时,Kimi其实也发布了其多模态推理模型K1.5.虽然和R1一起被OpenAI认证为最早破解o1技术原理的两个模型之一,但很长一段时间,Kimi都在DeepSeek所占据C位的聚光灯外。
其后,Kimi又与DeepSeek多次在论文和模型上“撞车”。在这种频繁的追赶和技术交锋中,不同于DeepSeek背靠母公司幻方量化在算力和资金方面的有力支撑,Kimi除了需要坚持基础大模型的训练,还面临商业化的挑战,如何与中国的开源模型们一起打破技术垄断,也是接下来Kimi们需要翻越的大山。
采写:南都记者 林文琪
编辑:甄芹