论文速报《Being-0:结合视觉语言模型与模块化技能的人形机器人智能体》-1. 主要贡献

时间:2025-04-22 18:07:14

Being-0的主要贡献可以总结为以下几点:

  1. 分层智能体架构:提出了一个专为人形机器人设计的三层架构,包括基础模型层、连接器层和技能库层,实现了从高级语言指令到低级机器人控制的端到端映射。

  2. 模块化技能库:开发了一套丰富的模块化技能库,分离了下半身运动控制和上半身操作控制,分别解决稳定导航和精确操作的问题。

  3. 创新的连接器模块:引入了由轻量级视觉语言模型(VLM)驱动的连接器,解决了基础模型在空间理解、实时反应和技能协调方面的局限性。

  4. 实时高效部署:除了基础模型外,Being-0的所有组件都可以在低成本的机载计算设备上运行,实现了在全尺寸人形机器人上的实时性能。

  5. 真实世界验证:在复杂的室内环境中进行了广泛的实验,证明了Being-0在执行包含导航和精细操作的长周期任务中的有效性。