YY(易游体育)中国-官方网站

人形机器人「网球运动员」来了!不靠预编程银河通用×清华破解长程打网球难题-YY易游体育
关闭
人形机器人「网球运动员」来了!不靠预编程银河通用×清华破解长程打网球难题
作者:小编 日期:2026-03-17 点击数: 

  

人形机器人「网球运动员」来了!不靠预编程银河通用×清华破解长程打网球难题

  高速来球逼迫瞬时判断,全身协同决定回球质量,满场奔跑则持续考验爆发力与控制力。

  那么,当机器人真正站上球场,它能否像人类运动员一样完成判断、移动与连续回合击球?

  画面中,机器人迅速移动脚步调整站位,上下半身协同挥拍击球,并将球精准回击到指定位置。面对各种来球,它能够持续调整身体姿态与击球时机,与不同水平的网球对手完成多回合连续对拉。

  在网球这样的高动态、高对抗环境中,机器人面对的是时速超过几十公里的来球、变幻莫测的落点轨迹,以及对手不断变化的击球节奏。

  更重要的是,这一能力并非依赖预编程动作实现,而是机器人通过深度强化学习自主习得——全球首次在人形机器人上实现高动态网球对打,机器人正在实现从“机械复刻动作”向“智能决策响应”的底层跨越。

  研究团队提出了一种新的机器人运动学习方法,使人形机器人能够从不完美的人类动作数据中学习复杂的运动技能,并在真实世界中完成高动态、高敏捷YY易游体育平台的网球击球与对打任务。

  传统的人形机器人运动学习往往依赖高质量遥操作数据进行模仿学习,但在网球这样的高动态运动场景中,这类数据几乎难以获取。而通过高质量动作捕捉数据完整记录一场网球比赛所涉及的人体运动,则需要高精度、大范围动作捕捉系统,也需要精准获取运动员的击球手部动作,因此昂贵且几乎不可获得。

  不依赖昂贵且几乎不可获得的网球全场比赛跑动数据,不依赖精准的运动员击球手部动作,仅靠收集前后移动、正反手挥拍、横向步伐等碎片化动作,让机器人自主学习运动技能空间,构建其“运动小脑”,从而解锁大范围跑动急停、回击各种来球的运动能力。

  团队把难以规模化采集的完美专家数据替换为易获取但不完美的人类动作数据,从源头打开机器人运动技能学习的数据通路。

  仅仅学习动作片段并不足以让机器人完成复杂运动任务,关键在于如何把这些零散经验整合成可执行的运动技能。研究团队提出在隐空间中构建一个“运动技能空间”,将碎片化的人类动作先验组织为可组合、可泛化的技能结构。

  同时,通过在训练过程中对关键自由度施加随机扰动,该空间允许关键自由度上可被修正、可探索。这一空间使机器人不再只是机械复刻训练数据,而是获得一个既保留自然运动风格、又允许击球细节被修正的技能表示,为后续任务学习出强于原始数据的技能提供了强大的基础。

  在训练过程中,强化学习驱动的规划器会在这一技能空间中进行采样与组合。面对不同来球,机器人可以根据球速、落点以及自身姿态,对步伐、挥拍节奏和身体姿态进行实时自主规划,在保持自然运动风格的同时实现稳定击球。

  此外,机器人还会根据实时感知对动作进行微调,特别是在击球末端自主修正挥拍轨迹,从而控制回球方向与落点,使回击更加稳定、精准。

  在网球这样的高动态运动中,困难的不只是把球打回去,而是在高动态对抗中既完成任务、又不牺牲动作质量。

  如果完全依赖强化学习进行探索,机器人往往会找到一些“投机取巧”的策略,例如通过抖动、不自然的动作勉强击中来球。虽然任务完成了,但动作质量会严重下降。

  为了避免这一问题,研究团队提出了隐空间动作屏障Latent Action Barrier(LAB)。

  LAB为强化学习提供了一种受约束但不僵化的探索机制。策略可以针对不同来球、自主跑位以及击球动作进行灵活调整,但同时又不会轻易偏离自然的人类运动模式。

  因此,在训练过程中,机器人既能够保持自然稳定的运动风格,又能够逐渐学会适应不同来球情况,实现更加精准的击球控制。通过这种方式,机器人最终能够在高动态环境中实现稳定击球,同时保持自然流畅的动作表现。

  为了进一步验证LATANT的性能,研究通过将策略部署至29自由度的宇树G1机器人,并在MuJoCo仿真器和真实世界中进行大量测试。

  首先,实验系统对比了LATANT与经典基线算法例如:PPO、AMP的性能表现。

  LATANT在击球成功率(SR),回球落点精准性(DE),关节顺滑程度(Smth)与关节力矩(Torque)上展现出了绝对优势:LATENT不仅打得准,并且打得丝滑!

  在真实物理世界中,研究者进行了连续20局的人类-机器人连续网球对拉,实验涵盖机器人正手击球、机器人反手击球、机器人前场击球、机器人后场击球等多种实验设置。

  真实世界复杂多变,为了在不同场地、不同材质的网球地面上进行稳定击打,研究者在仿真中对地面弹性系数、空气阻力、网球质量、机器人本体动力学性质等多个方面进行了随机扰动,并借助GPU进行大规模强化学习训练:

  实验证明了LATENT在不同球场位置、不同击球动作的表现下均有着较高的击球成功率和击球精准度,而研究者发现域随机化的加入和训练中观察噪声的引入对网球的在真机上的性能表现起到关键作用,测试时,机器人展现出了极强的运动自然性和稳定性。

  进一步,研究员在仿线轮的网球回击过程中的机器人全场跑动范围,并可视化了机器人在网球场上的跑动范围和击球轨迹:

  实验证明,搭载LATENT的策略的跑动范围覆盖全场,有能力接到来自各个方向的刁钻击球!

  除了人与机器人的对打,研究团队还展示了两个机器人之间的连续对练场景。这不禁YY易游体育平台让人联想到十年前通过自我博弈不断提升棋力、最终战胜柯洁的AlphaGo。虽然两者技术路径并不相同,但机器人之间的互动对练,也为未来机器人的自主学习与持续能力进化带来了更多想象空间。

  当机器人能够像人类一样移动、判断并完成复杂运动任务时,人形机器人的应用边界也将进一步扩展。从运动娱乐到家庭服务,再到各种复杂的人机协作场景,具身智能正在逐渐走出实验室,进入真实世界。

  作为中国具身智能模型路线的代表性企业之一,银河通用也是当前少数将模型能力真正落地到真实产业场景的公司。

  银河通用成立于2023年5月,今年2月最新一轮融资25亿元,再次刷新具身智能行业单轮融资纪录,估值突破210亿元,稳居中国人形机器人领域估值最高的未上市企业,累计融资额继续稳居首位。

  在硬件层面,Galbot(G1)轮式双臂本体高效折叠,支持2.4米高摸底触地,兼顾灵活度与性能迭代;

  从技术路线上来看,银河通用主打“仿真为主、真机为辅”的虚实结合训练管线:自研仿真系统生成百亿级机器人干活数据集,破解行业真实数据稀缺难题,实现Sim2Real无缝迁移,这构成了其具身能力扩展的底座。

  在产业落地层面,银河通用的版图已覆盖工业、零售、仓储物流、医疗康养等多个领域。

  这标志着,银河通用正在把机器人从实验室,一步步推向日常生活与真实产业,构建起一张完整的具身智能生态网格。

  论文由北京银河通用机器人与清华大学研究团队联合完成。论文的共同第一作者为银河通用研究团队成员:张智楷、卢昊飞、连允睿,三人均为清华大学在读研究生;通讯作者为清华大学交叉信息研究院助理教授、上海期智研究院PI弋力。返回搜狐,查看更多

顶部