AI小龙阶跃星辰押注多模态模型,布局汽车、手机等应用场景

南方都市报APP • 政商数据
原创2025-02-22 18:00

2月21日,在“AI大模型六小龙”中一向低调的阶跃星辰在上海举办首届Step UP生态开放日。在开放日上,“开源”“多模态”“Agent”“视觉推理”等关键词被阶跃星辰创始人、CEO姜大昕频繁提及。

姜大昕提到,除了开源阶跃星辰近期发布的两款多模态大模型文生视频模型Step-Video-T2V和语音模型Step-Audio,阶跃星辰还将在3月份开源图生视频。

面向2025年这个Agent元年,阶跃星辰押注的方向是多模态与视觉推理模型。阶跃星辰官宣将智能终端Agent视为大模型技术落地的核心突破点,并重点布局汽车、手机、具身智能、IoT等关键应用场景。

 

多个核心模型已开源,即将开源图生视频模型 

按照姜大昕的规划,阶跃星辰实现AGI的技术路线是模拟世界、探索世界和归纳世界。遵循着这样的路径,从2023年4月成立至今,阶跃Step系列模型矩阵已经发布了11款多模态大模型,覆盖语音识别、语音生成、多模态理解、图像及视频生成的全面能力。另外在今年1月,阶跃星辰发布了Step R-mini,成为Step系列的首款推理模型,进一步拓展了大模型的能力边界。 

图片

阶跃星辰创始人、CEO姜大昕在Step UP生态开放日上。

近期阶跃星辰发布了两款多模态大模型文生视频模型Step-Video-T2V和语音模型Step-Audio。其中,Step-Video-T2V参数量达到300亿,可直接生成 204帧、分辨率540P的高质量视频。而Step-Audio是行业内首个产品级的开源语音交互模型,该模型在汉语水平考试中的表现尤为突出。目前,两个模型皆已开源,姜大昕还预告,阶跃星辰将在3月份开源图生视频。

南都记者关注到,由DeepSeek引发的开源热正在席卷行业。近期,百度宣布百度文心大模型4.5将开源,月之暗面也首次在其关于注意力机制的论文中公布了相关代码。2月21日午间,DeepSeek还宣布从下周开始将开源5个代码库,以完全透明的方式与全球开发者社区分享他们的研究进展,每日都有新内容解锁,进一步分享新的进展,并将这一计划定义为“Open Source Week”。

 

Agent爆发元年,押注多模态与视觉推理模型

姜大昕还提到,阶跃星辰内部正在研发相关视觉推理模型。“目前,视觉理解模型还停留在系统一也就是快思考的模型,然而视觉和文本一样,遇到复杂问题还是需要思维链和慢思考能力的。比如(导航时)沿着蓝色箭头行走我能到达哪个商店。我们要解决这个问题,就需要一步步跟着蓝色箭头移动,这是一个慢思考的过程。”

在姜大昕看来,2025年被称为Agent爆发元年,而阶跃星辰重点发展的慢思考和多模态能力也正是Agent发展的关键因素。“智能体的发展依赖于两大关键要素:一是多模态能力,让智能体充分地感知和理解世界,这样一来就能更好地理解用户的任务;二是推理能力,使智能体能够进行长思维链的慢思考,主动规划、尝试、反思,通过不断纠错提供准确的答案。现在机器的思考能力比较弱,只能思考几十秒钟,最多几分钟,随着模型能力的增强,思考的时间越来越长,范围越来越宽广,也意味着我们距离AGI的目标越来越近。” 

另外,为赋能Agent应用开发者,阶跃星辰在此次大会上还发布了全新升级版的“繁星计划”。该项计划旨在为Agent应用开发者提供模型、算力、资本、数据和企业孵化等全方位支持。据悉,该计划自2024年7月正式启动以来,已涌现出20多个优质AI创业项目,其中包括国内首个面向C端用户的AI电商应用物圆以及冲上App Store美食类畅销榜前三名的胃之书。

 

布局智能汽车、手机、具身智能、IoT四大核心场景

在生态开放日上,阶跃星辰官宣将智能终端Agent视为大模型技术落地的核心突破点,并重点布局汽车、手机、具身智能、IoT等关键应用场景。

面向智能汽车,阶跃星辰宣布与吉利汽车集团、智能科技公司千里科技深化技术合作,共同推动“AI+车”的深度融合。千里科技董事长印奇在现场强调,“通过AI大模型、端到端智驾、驾舱融合等技术的突破,智能汽车的体验将实现从量变到质变的跨越。期待与吉利、阶跃一起,在模型优化、产品定义和软硬件研发等领域全面合作,共同打造更安全、更舒适的智能出行体验”。

OPPO智能助理部部长、小布助手负责人万玉龙在现场表示,随着新一代AI 技术与移动终端的深度融合,手机已经逐步进化为能够理解用户意图、提供主动服务,甚至预判用户需求的智能助理。

阶跃星辰官宣与手机厂商深度共建,将Agent技术深度集成到手机中,共同打造更好的交互体验。据介绍,基于阶跃Step系列多模态模型,目前OPPO已打造了“一键问屏”和“一键全能搜”两大创新性AI手机功能。用户使用小布助手App,可以通过多模态视觉跟AI交互,实现拍照问答、文档问答、识屏问答等多种功能。此外,用户只需对小布助手下达指令,AI就可以独立进入各种APP端完成任务,比如一键搜所有。

在具身智能方面,阶跃星辰宣布与智元机器人战略合作,共同探索AI+具身机器人应用场景;面向IoT终端,阶跃星辰通过生态开放的方式,与包括TCL在内的一系列IoT平台和设备厂商紧密协作,推动设备间的智能化升级和体验的无缝连接。 


采写:南都记者 林文琪

 

编辑:甄芹

南都新闻,未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626
本文作者