前不久,上海一场以“劳动最光荣”为主题的技能大赛,用同台竞技的方式,以一场压力测试,让我们看到,机器人距离真实场景落地还有多远距离要走。无疑,仍处于发展早期阶段的具身智能,无论是大脑、小脑还是本体,尚有大量瓶颈待突破。
大脑不够聪明,训练数据不够,那就使用更多合成数据;机器人通用性难实现,那就先聚焦在一些特定场景的应用……行业喧嚣热闹,方兴未艾,创业者们纷纷选择自己的生态位,以“沿途拾蛋”的方式,共同推动这一未来产业的加速成熟。
与单纯追求视觉表现力和冲击力不同,中国人形机器人产业正以“好用、管用”为导向,加速商业化落地进程。前不久,以“劳动最光荣”为主题的国际人形机器人技能大赛在上海举办。可以看到,随着人工智能、传感器技术迭代升级,人形机器人正从实验室走进更多工厂和家庭,逐步从“表演型”迈向“实用型”。
翻开赛事手册可以看到,汽车贴标、零部件上下料、衣服折叠、垃圾清理、商品扫码等工业、家庭、商业场景实现全覆盖。如果只看比赛项目,或许会以为这是一项人类劳动技能比赛。
刚刚完成比赛的机器人操控者王思浩告诉记者:“比如叠衣服这个动作,对人来说可能很简单,但对于机器人来说,却需要调动视觉、触觉等各个系统,非常复杂。但也因为如此复杂,人形机器人才可以在日常生活中真正帮到人类。”
更多具身智能产业企业也不再单纯追求“人形”。在一家主做仿生手的企业展位,记者了解到,该企业的产品并不一定需要装在人形机器人身上,搭载在一个平台上即可完成从1万元现金中抽取出5张纸币等银行柜员的基本操作。
以赛事为桥梁,拉近了机器人公司和场景应用方之间的距离。观看了商业场景赛事后,来自上海的朱先生立马向参赛队伍提出诉求。“我这边有1万多台自动售卖机。机器人能不能跟我的自动售卖机配合,在办公楼里完成下单、支付、取货、配送的完整工作流程?”
回顾来看,从北京的人形机器人半程马拉松赛,到无锡的具身智能机器人运动会,到杭州全球人形机器人格斗大赛,再到此次上海举办的国际人形机器人技能大赛,今年以来,人形机器人迎来了多场赛事。
“以往赛事更多聚焦机器人的运动能力,我们更看重让机器人具备进入各类场景,乃至千家万户去作业的能力。随着去年年底‘模塑申城’方案的全面实施,上海积极发挥场景应用优势,帮助人形机器人‘解锁’新技能,推动软硬件产品实现多元场景落地。”上海市人工智能行业协会秘书长钟俊浩这样介绍此次大赛的“上海特色”。
不可否认,人形机器人仍处在发展初期,从实验室走向工厂、走向家庭,仍有诸多技术难点待突破。通过这场赛事构建出的基于真实场景的压力测试场,我们看到了人形机器人率先在某些特定场景中应用的可能,以“沿途拾蛋”的方式不断积累数据、成熟技术。
从赛事来看,人形机器人在精度、速度、泛化度等维度仍显笨拙。行业人士表示,训练数据的不足,是当下阻碍机器人进化的一大瓶颈。
以ChatGPT、DeepSeek为代表的大语言模型,其智能的涌现,离不开巨量的文本数据。具身智能模型能力的提升,同样有赖于大量训练数据的输入。不过,与文本数据相比,具身智能的训练数据十分稀缺,尤其是多模态数据。“数量上可能有百万倍的差距。”中国工程院外YY易游网页籍院士张建伟说。
为了解决训练数据缺乏的问题,机构和企业纷纷行动。比如,特斯拉Optimus的训练数据是让人在远程操作机器人的过程中,将操作动作和环境感知数据进行记录;谷歌DeepMind联手斯坦福大学等推出了Open X-Embodiment Dataset,包含100多万条真实机器人轨迹。国内人形机器人头部企业智元也发布了百万真机数据集开源项目AgiBot World。
“头部车厂每天回流的数据在1亿条左右。但在具身智能领域,如今我们采集到的最大数据集也只有百万条规模。当人形机器人的存量尚未达到自动驾驶领域百万级设备的规模时,依赖海量真实数据训练不仅成本高昂,而且周期冗长,极大制约了大模型的训练效率与场景适应能力。”北京银河通用机器人有限公司创始人兼CTO王鹤说。
行业解决数据难题的路径之一,是合成数据。合成数据(Synthetic Data)是一种模仿真实世界数据的非人工创建的数据,它是由基于生成式人工智能技术的计算算法和模拟创建而成。在前不久举办的2025张江具身智能开发者大会上,银河通用通过完全基于合成数据的端到端抓取基础大模型GraspVLA,以及导航大模型,展示了合成数据的价值。
据悉,GraspVLA采用10亿级别的合成大数据进行训练。目前银河通用安装了上述大模型的人形机器人已经用于24小时无人药店。“40多平方米的药店里面,有5000多种药品,6000多个货道,可全都由机器人完成取货,打包后送至外卖柜等待上门领取。”王鹤介绍,目前由人形机器人运营的24小时无人药店已有6家在北京实现常态化运营,今年年底预计全国扩张至100家。
当然,合成数据方法并非没有局限性。虽然目前生成视觉数据的能力相对成熟,但生成其他模态的数据,包括触觉、温度和声音数据等,仍然是一项重大挑战。此外,关于合成数据路线,行业也有不少担忧,比如“Sim2Real Gap”,也即仿真环境与真实世界匹配度不够,导致合成数据训练存在有效性问题。
从全球视野来看,具身智能产业发展呈现出创新活跃的多元竞争态势。美国以顶尖科研机构与科技企业为核心,在算法、芯片等核心技术领域取得突破;欧洲持续推进具身智能在工业场景中的应用探索。中国则得益于完整的产业链优势,集合了本体制造、算法优化,再到落地场景验证的全栈式技术储备,成为具身智能产业的一处高地。
“我国人形机器人初步建立了‘大脑、小脑、肢体’的创新体系,而这也成为世界范围内被广泛应用的技术体系。目前,我国人形机器人整机产品达到国际先进水平,涌现了宇树、智元、傅利叶、星动纪元、银河通用等一批企业。在CS2025上,英伟达CEO黄仁勋身后的14台人形机器人,4台来自美国,6台来自中国。”国地共建人形机器人创新中心首席科学家江磊介绍。
江磊表示,在核心零部件方面,我国已经实现了安全有效的供给,尤其是在感知、控制、驱动、传动模块,在低成本约束下具有一定的领先优势。创新生态也逐渐完善,形成跨领域企业、本体初创企业、高校科研院所、上游部组件企业以及地方政府支持下的创新中心等5类创新主体。
“整体来看,我国具身智能产业规模爬升迅速,示范应用仍在培育阶段。”江磊说。
仍处于早期阶段的具身智能产业,无论是大脑、小脑还是本体,都面临诸多瓶颈。比如,在应用方面,目前更多是抓取、摆放、组装等一些“原子”技能的训练,难以完成长序列任务。在技术路线上,也存在诸多争议,比如到底是“数据驱动”还是“模型驱动”,是做通用型机器人,还是做“专用”机器人。
分歧终将收敛于实践。目前我国已有超过100家人形机器人整机企业,这些企业纷纷寻找自己的生态位,做出不同的选择,有些聚焦于工业场景,提升负载和电池容量;有些聚焦于商用服务行业,提出用“岗位化”理念生产“专用”型机器人;有些结合自身原有业务优势,聚焦康复医疗场景……
谈及未来5到10年人形机器人的发展,张建伟表示,在做YY易游网页技术预测时,人们倾向于对近期目标过分悲观,对远期目标又过分乐观。“全球来看,从20世纪80年代的美国,后来到日本,再到韩国,机器人‘狼来了’的故事已经喊过多遍。人工智能的发展为机器人自主学习能力提升带来了巨大想象空间,我们也随之来到了一个新的时点。”
“能够在家庭护理、工厂等多场景工作的通用型机器人,可能仍需10年、20年的时间来打磨。但未来5年,在抓取、装配等场景中,具身智能应该可以完成第一批示范场景应用。在很多B端场景,如工厂、社区医院、农业等,围绕收割、杀虫打药、采摘,以及一些简单的家务任务,应该逐渐有专业机器人出现。”张建伟说。