Choice Policy团队 投稿
量子位 | 公众号 QbitAI

在家庭厨房自主使用洗碗机,在办公室边移动边擦拭白板——这些人类习以为常的场景,对人形机器人来说,却是需要调动全身关节协同运作才能完成的“高难度挑战”

近日,UC Berkeley加州大学伯克利分校团队在arXiv平台发表了题为《Coordinated Humanoid Manipulation with Choice Policies》的研究论文,通过“模块化教学+智能选动作”的创新方案,成功破解了人形机器人全身协同的核心难题,为其走进真实人类环境铺平了道路。



阻碍人形机器人走进日常生活的“两大困境”

人形机器人一直被寄予厚望,有望在家庭、办公等非结构化环境中帮助人类完成日常工作,但长期以来,两个关键难题让它始终无法突破“实验室边界”,难以真正落地应用:

难题1. 全身协同难,“教学数据”获取贵且难

像使用洗碗机、移动擦黑板这类“长时连续任务”,需要机器人同时协调头部(定位目标)、双手(抓握操作)、腿部(移动平衡),实现类似人类“眼到手到、脚步稳健”的状态。

但传统的“遥操作”模式,需要操作员同时控制机器人几十个甚至上百个关节,不仅操作难度极高,操作员极易疲劳,还很难收集到高质量的演示数据——没有靠谱的“老师示范”,机器人自然学不会复杂的协同动作。

难题2. 动作“灵活度”与“反应速度”不可兼得

人类做同一个动作往往有多种可行方式(比如拿盘子,既可以五指托举,也可以拇指扣住边缘),这种“动作多样性”是机器人模仿人类的关键难点。

传统解决方案要么“太僵硬”:比如“行为克隆”技术只能让机器人学一种固定动作,遇到稍微变化的场景就会失灵;

要么“太迟钝”:比如“扩散策略”虽然能想到多种动作,但需要反复计算,延迟极高,根本跟不上实时操作需求(比如插盘子时错过最佳对准时机)。

双管齐下,用“模块化教学+智能选动作”破解困境

针对上述两大难题,伯克利团队没有走“复杂控制一刀切”的老路,而是提出了“模块化简化教学+多候选智能选动作”的组合方案,实现了“1+1>2”的效果:

1. 简化“教学”:模块化遥操作,普通人10分钟就能当“机器人老师”

团队把机器人的全身控制拆分成4个“傻瓜式”模块,操作员只需用VR手柄就能轻松操控,无需专业技能:



①手眼协调模块:头部会跟随手部动作转动,确保眼睛始终盯着操作区域;

②手部抓握模块:扣动扳机键就能实现“力量抓握”,拨动摇杆可微调拇指位置,精准控制力度;

③手臂跟踪模块:VR手柄的姿态会直接映射到机器人手臂,手柄动哪里,手臂就跟到哪里;

④全向移动模块:切换摇杆模式后,就能控制机器人前后、左右移动或转弯。

这种设计大幅降低了操作门槛,操作员10分钟就能上手,既能减少疲劳,又能快速收集大量高质量演示数据——相当于为机器人配备了高效的“专属家教”,让它不再盲目模仿。

2. 优化“决策”:Choice Policy算法,让机器人“秒选最优动作”

团队摒弃了传统方案的弊端,设计了“多候选动作生成+实时打分筛选”的机制:机器人会一次性生成多个可行的动作方案(比如拿盘子的3种不同姿势),再通过训练好的模型给每个方案打分,瞬间选出最优解。

这个过程就像人类做决定时“脑子里快速过几个选项,挑最稳妥的来”,既保留了动作的多样性,又保证了反应速度,完美解决了“僵硬”与“迟钝”的核心矛盾。



研究方法:算法与硬件双向协同,星动纪元人形机器人成关键支撑

这项研究的成功,离不开算法创新与硬件性能的深度配合。而星动纪元全尺寸双足人形机器人星动STAR1的硬件优势,恰好为算法落地提供了“强力支撑”,让“模块化教学”和“多候选决策”真正发挥作用:



1. 超高自由度+精准操控,适配手部与手臂模块需求

星动STAR1搭载2只星动XHAND1手部,每只手有12个全主动驱动自由度,且无被动关节——这意味着手指能做出更精细、灵活的动作,完美匹配“手部抓握模块”的需求。

当操作员通过手柄触发“力量抓握”时,机器人手指能像人类一样精准调节力度,既不会夹碎盘子,也不会让橡皮滑落;同时,其仿生手臂7个自由度的高刚性设计,能快速响应“手臂跟踪”指令,避免因硬件卡顿导致操作失误,确保模块指令精准落地。

2. 全向移动+稳定平衡,支撑移动操作任务

像移动擦黑板这类“边走边干”的任务,对机器人腿部性能要求极高。星动STAR1每只腿有6个自由度,支持全向移动(前后、左右、转弯),刚好适配遥操作的“移动模块”;

更关键的是,它内置姿态传感器和低层级PD控制器,能实时调整腿部关节力度,就像人类走路时自然调整重心一样,让机器人在移动中保持稳定——这也是论文中“移动与操作深度融合”能实现的核心硬件基础。

3. 多传感器融合,赋能手眼协调模块

手眼协调是长时任务成功的关键,而这需要精准的视觉反馈。

星动纪元全尺寸双足人形机器人头部搭载RGB+深度相机,能快速捕捉目标位置(比如洗碗机卡槽、白板污渍),并将视觉信息同步给手部操作模块,实现“眼睛看到哪里,手就对准哪里”。

论文数据显示,没有手眼协调时,洗碗机卡槽容易被遮挡,机器人“看不见就插不准”;而STAR1的高清视觉传感器配合头部2个自由度的灵活转动,能让卡槽始终保持可见,大幅提升操作成功率。

4. 高鲁棒性设计,保障实验顺利推进

研究需要通过10次连续试验验证稳定性,而星动人形机器人星动STAR1的55个驱动自由度(头部2+腰部3+手臂7×2+腿部6×2+手部12×2)提供了充足的运动冗余,再加上抗干扰的硬件设计,能有效减少硬件故障、网络超时等问题,确保高质量演示数据的持续收集——这也是论文能公平对比三种算法、凸显Choice Policy优势的重要前提。



碾压传统方案,手眼协调是关键

团队在两个真实场景中开展了大量实验,结果直观证明了新方案的优势,其中手眼协调和Choice Policy算法成为“胜负手”:

1. 核心任务:洗碗机装载(10次连续试验)

这是考验“头-手协同”的关键任务,需要完成“滑动盘子→抓取→手递手→插入卡槽”四个步骤,任意一步失败即判定任务失败:

无手眼协调时:所有方法在“插入”阶段几乎全败,成功率仅10%-20%,核心原因是卡槽被遮挡,机器人“看不见插哪里”;

有手眼协调时:Choice Policy表现一枝独秀——抓取成功率100%、手递手成功率90%、插入成功率70%;而传统“行为克隆”插入成功率仅50%,“扩散策略”因延迟高,插入成功率也只有50%。





2. 进阶任务:擦白板操作(5次连续试验)

这是更复杂的“走+干”协同任务,需要完成“头部找橡皮→抓取→走到白板前→擦拭”流程,对全身协同要求极高:

传统“行为克隆”:抓取、走路、擦拭成功率均仅20%,经常因走路失衡、定位不准导致任务中断;

Choice Policy:抓取、走路、擦拭成功率均达到40%,虽然整体仍有提升空间,但已是传统方法的2倍,充分展现了“移动与操作深度融合”的能力。



3. 三大关键发现

手眼协调是长时任务的核心:没有它,哪怕手部、腿部单独操作再精准,也会因“看不准”导致整体失败;

Choice Policy的“打分机制”是核心优势:消融实验显示,若随机选动作、平均动作或固定一个动作,插入成功率最高仅30%,而“打分选最优”能达到70%,证明智能选择的必要性;

硬件冗余不可少:星动纪元人形机器人星动STAR1的55个驱动自由度让机器人能灵活调整动作,适配不同候选方案,而低延迟特性则保障了“实时选动作”的优势。



推动人形机器人从“实验室”走向“真实生活”

这项研究不仅是算法层面的突破,更给人形机器人产业化带来了三大核心落地价值,加速其走进日常生活:

1. 降低“教学成本”,普通人也能教机器人干活

模块化遥操作让非专业人员10分钟就能上手教机器人,无需依赖昂贵的专业工程师,大幅降低了高质量演示数据的收集成本。这意味着机器人的“学习素材”会越来越多,训练效率也会随之翻倍。

2. 破解落地痛点,适配真实非结构化环境

Choice Policy解决了“动作僵硬”与“反应迟钝”的矛盾,再加上星动STAR1这类高自由度硬件的支撑,机器人能在家庭(装洗碗机、叠衣服)、办公(擦白板、整理文件)、仓储(搬运货物)等复杂环境中稳健工作,彻底摆脱对实验室“理想场景”的依赖。

3. 搭建“软硬协同”范式,为行业提供可复制模板

研究证明了“模块化遥操作(数据收集)+ Choice Policy(算法学习)+ 高自由度硬件(执行)”的组合方案完全可行,为后续人形机器人研发提供了清晰的技术模板。

尤其是星动STAR1的硬件设计,验证了“多自由度+精准控制+稳定移动”是复杂任务落地的关键,给硬件厂商指明了优化方向。

4. 提升鲁棒性,应对真实环境的不确定性

在“未见过的盘子颜色”“盘子位置偏移”等超出训练范围的场景中,Choice Policy的成功率仍高于传统方法,说明机器人能应对真实环境的变化——这正是从“实验室原型”走向“实用产品”的核心门槛。

未来,随着这套技术框架的进一步优化,人形机器人走进日常生活的场景或许很快就能实现:下班回家,机器人已经把餐具整齐装进洗碗机;走进办公室,白板上的残留字迹早已被机器人擦拭干净。



论文名称:

《Coordinated Humanoid Manipulation with Choice Policies》

论文地址:

https://arxiv.org/pdf/2512.25072