前不久,美国团队的AI自主手术登上顶刊封面,在医疗界和科技圈引发巨大轰动。各界不乏"太强了"的感叹,似乎在这条赛道上,中国要落后了。
而国际顶级期刊《Science Robotics》近期发表的研究表明,中国团队在这个领域同样实现了里程碑式突破!这次不是跟随,而是真正的引领——首次证明了具身智能在真实生命体动态环境中的可行性。简单来说,就是AI能在活体动物身上,面对呼吸、心跳、出血等各种不可预测的情况,依然自主完成精准的手术操作,这无疑将手术机器人的自主性推向了新高度!
香港中文大学和康诺思腾的联合团队,直接创造了三个世界第一:全球首例临床场景下自主手术、首次完成多任务手术自动化的活体动物验证、首个实现通用多任务自动化的AI手术机器人系统。
研究团队开发的具身智能系统,成功在活猪身上完成了纱布抓取、血管夹闭、软组织牵引等多项手术辅助任务——全程仅靠视觉反馈,无额外传感器!更牛的是,这套系统在仿真环境训练后,可以直接部署到真实手术机器人上,无需额外训练。具身智能的"仿真-现实鸿沟"这一最大痛点迎来重大突破意味着临床落地成本将大幅降低。
这项研究的意义远不止技术突破。团队开源的手术训练平台SurRoL已被全球多个机构采用,谷歌学术引用超100篇。初步测试显示,新手在AI辅助训练下,手术训练任务完成速度快了近一倍——这对缓解全球外科医生短缺意义重大。
最关键的是,研究提出的"监督自主性"模式为人机协作手术提供了安全可行的范式,既提高了手术效率,又保证了安全性——整个试验过程零事故。
这项研究由港中文计算机科学与工程学系窦琪教授领导,与约翰斯·霍普金斯大学"手术机器人之父"Russell H. Taylor教授团队,以及手术机器人公司康诺思腾合作完成。实验采用康诺思腾的国产Sentire思腾腔镜手术机器人,从核心算法到硬件平台均实现自主可控。
▍仿真训练完就能给活体做手术,怎么做到的?
让AI从实验室走进真实手术室,一直是个大难题。毕竟,仿真环境再逼真,也无法完全复制活体组织的复杂性——呼吸起伏、血液流动、组织弹性,每一个细节都可能导致算法失效。
港中文团队给出的答案是VPPV框架——视觉解析、感知回归、策略学习、视觉伺服控制四个模块的有机结合。这套系统最大的创新在于,它不是简单地让AI"看图识物",而是通过视觉基础模型提取高层语义信息,将复杂的手术场景抽象为机器人能理解的状态表示。
这种设计巧妙地绕过了仿真与现实之间的视觉差异,实现了真正的零样本迁移。
在体外实验中,研究团队在猪胃组织上测试了5项手术辅助任务。内窥镜相机操控成功率达95%,针头抓取83%,纱布拾取91%,软组织牵引91%,血管夹闭87%。每项任务都在不同的光照、烟雾、器械类型等条件下进行了验证。
但真正的考验是活体试验。在香港医疗机械人创新技术中心的混合手术室里,研究团队在一只30公斤重的活猪身上进行了验证。纱布拾取任务中,当纱布被血液浸染后,颜色与周围组织极为相似,但系统依然保持了83%的成功率。软组织牵引任务面对呼吸运动带来的动态环境,成功率为77%。最具挑战性的血管夹闭任务,需要在直径仅5毫米的血管上精确放置10毫米的夹子,成功率达到67%。
更绝的是,整个系统的推理速度达到了实时水平——在配备RTX 3090显卡的标准工作站上,目标分割40毫秒,深度估计300毫秒,策略预测仅需7毫秒。这意味着,AI的计算速度已经不再是瓶颈。
▍打造手术机器人的"Android",上线"AI导师"
如果说VPPV框架是这项研究的"大脑",那么SurRoL就是支撑它的"躯体"。
这个由港中文团队历时5年开发的开源手术具身智能模拟器,正在成为手术机器人领域的基础设施。目前已有超过100篇学术论文引用了这个平台,全球多个研究机构正在使用它开展相关研究。
SurRoL的独特之处在于,它不仅仅是一个物理仿真器,更是一个完整的手术机器人学习生态系统。它支持软体组织仿真,可以模拟组织在不同刚度下的变形;支持人机交互,研究人员可以通过触觉设备收集演示数据;最重要的是,它内置了完整的强化学习库,让研究者可以直接上手开发算法。
▍这就是手术机器人版的"AI导师"功能。
传统的手术培训依赖于资深医生的言传身教,但优秀的外科医生资源极其稀缺。港中文团队创造性地将强化学习预测的轨迹转化为触觉反馈,让机器人的主操作手能够引导学员的手部动作。
实验结果非常喜人。研究团队招募了8名没有手术机器人使用经验的研究生,分为AI辅助组和自主练习组。经过15分钟的训练后,AI辅助组完成钉子转移任务的平均时间为10.5秒,而自主练习组需要20.2秒——效率提升近一倍。
这种训练方式的革命性在于,它不再依赖于预设的固定轨迹,而是能够根据不同的手术场景动态生成最优路径。学员可以在各种复杂情况下得到个性化的指导,而不是机械地重复固定动作。更重要的是,这套系统可以24小时不间断工作,不会疲劳,不会有情绪波动。在外科医生培训资源极度匮乏的今天,这种AI导师的出现无疑是雪中送炭。
同时,研究团队还开发了基于3D高斯泼溅的场景重建技术。只需要一段真实手术视频,5分钟内就能生成高度逼真的虚拟手术环境。这种数据驱动的方法,让研究者可以快速构建各种手术场景,极大降低了仿真环境的构建成本。
在SurRoL上,研究团队建立了包含7个任务的基准测试集,涵盖了达芬奇手术机器人的标准训练科目。他们还开发了名为MoE-GCDT的多任务预训练方法,在单步任务上达到了95%以上的成功率,在多步任务上也保持了稳定的表现。
这种开源策略的价值不仅在于技术共享,更在于建立了一个共同的研究平台。就像Android系统推动了智能手机的普及,SurRoL正在降低手术机器人研究的门槛,让更多研究机构能够参与到这个领域中来,推动手术机器人产业发展。
▍未来已来:当AI成为外科医生的最佳拍档
在活体试验中,研究团队采用了"监督自主性"的操作模式——这可能是未来手术室的标准配置。
在这种模式下,外科医生首先在腹腔镜视野中标记出安全操作区域,然后让AI接管特定任务。比如在软组织牵引中,医生指定需要牵拉的组织区域后,机器人会自动完成抓取和牵引动作,而医生的双手可以专注于更复杂的解剖操作。
这种设计充分考虑了临床实际需求。手术中,医生经常需要"第三只手"来辅助操作——传统上这需要助手配合,但人与人之间的配合总有延迟和误差。AI助手则可以提供稳定、精确、即时的辅助。
未来的发展方向可能包括实现更复杂的多步骤长程的手术任务自动化、开发基于语音的人机交互系统,以及建立完善的安全监管框架。目标不是替代外科医生,而是增强他们的能力。就像GPS导航不会替代司机,但会让驾驶变得更轻松、更安全。
这项研究证明了具身智能在医疗领域的巨大潜力,为手术机器人从遥控操作向智能辅助的转变奠定了基础。正如ChatGPT引发了AI应用的革命,这类研究很有可能成为手术机器人领域的"ChatGPT时刻"——技术从实验室走向临床的转折点。
想象一下,主刀医生身边有一个永不疲劳、永不手抖的AI助手,在关键时刻提供精准辅助。这意味着即使是县级医院的年轻医生,也能在AI协助下完成高难度手术。
当AI成为医生可靠的伙伴,偏远地区的患者也能享受顶级医疗服务。“让高品质医疗惠及大众”这个目标不再遥远。
论文链接:https://www.science.org/doi/10.1126/scirobotics.adt3093#M1