3月24日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港科学园深圳分园发布“术影”SurgMotion手术视频大模型。该模型基于涵盖约1500万帧、超3658小时真实手术视频的SurgMotion-15M数据集进行训练,在17个国际权威手术AI基准上全面刷新最优纪录,标志着手术AI从“碎片化识别”向“通用化理解”的跨越式进化,为临床治疗、手术操作、医学教学及术后复盘提供有力支撑。
从“看画面”到“看懂操作”:视频原生架构的范式革命
“术影”手术视频大模型突破传统像素重建的局限,引入运动引导的隐空间预测机制,显著提升了模型对手术器械、解剖结构、交互动作等关键语义结构的理解能力。据CAIR研究员易东介绍,研究团队在V-JEPA架构基础上引入运动引导的隐空间预测、特征多样性保持和模型稳定性保持三项技术改进,让模型更专注学习手术视频中的运动和中高层语义信息,实现了更高效的自监督训练方法。
该模型支持13种人类主要器官、6大类手术理解任务,包括工作流理解、动作理解、深度估计、息肉分割、三元组识别、技能评估,尤其在手术流程识别、器械交互理解、精细动作建模等核心任务上大幅超越现有方法。其背后的SurgMotion-15M预训练数据集汇集了来自50个数据源、13个解剖区域的3658小时手术视频,涵盖腹腔镜、开腹、神经外科、眼科、耳鼻喉科等多专科场景,为模型提供了前所未有的多样性支撑。
赋能临床,开源共享:构建通用手术AI新生态
发布会上,香港大学深圳医院神经医学中心名誉顾问医师潘伟生教授展示了“术影”在神经外科培训领域的应用验证。拥有35年临床经验的潘伟生教授表示,香港大学深圳医院作为神经外科专科培训基地,一直致力于解决复杂手术教学中传统“师带徒”模式的标准化难题。此次验证的“术影”大模型在多中心临床数据中准确率高达90%,在公开的JIGSAWS手术技能评估数据集中,其评估误差降至最低的2.649,与专家评分的相关性高达0.770,性能远超同类模型。
中山大学附属第一医院呼吸与危重症医学科副主任廖槐教授则展示了该模型在呼吸介入治疗领域的应用。廖槐教授认为,医学学习需要多方面积累,医生在具备一定医学基础和能力之后再借助AI,可以提升工作效率。他特别提到,通过增强现实技术,模型可以自动生成初步报告、快速标记病灶,“你拍好一张图片,它会立刻分析出图片信息,并自动提炼出来,医生只需再审核即可”。
在测试中,结合中山一院真实的临床视频数据,呼吸介入治理流程识别达到85%左右的准确率。“这一技术能将经典手术中的关键信息提炼并结构化,让医疗更加同质化,帮助来自基层的医院、医生获得指引。”
CAIR主任刘宏斌研究员表示,此次发布的“术影”手术视频大模型全面开源,旨在助力构建大湾区AI医疗的智慧生态,研发始终以临床应用为核心目标。“开源是为了让更多生态人员参与其中,并且各自贡献力量。目前很多问题尚未解决,需要大家齐心协力完成这件事情。”他表示,未来AI系统应是一个大型具身智能框架,其中包含一个核心基座用于调动工具,而“术影”目前虽已覆盖13个领域,但仍有许多未解决的问题,希望更多机构能够使用这个模型,共同分享实际应用场景中的痛点和难点,推动底层技术的持续突破。
采写:南都N视频记者 王道斌