Being-0的主要贡献可以总结为以下几点:
-
分层智能体架构:提出了一个专为人形机器人设计的三层架构,包括基础模型层、连接器层和技能库层,实现了从高级语言指令到低级机器人控制的端到端映射。
-
模块化技能库:开发了一套丰富的模块化技能库,分离了下半身运动控制和上半身操作控制,分别解决稳定导航和精确操作的问题。
-
创新的连接器模块:引入了由轻量级视觉语言模型(VLM)驱动的连接器,解决了基础模型在空间理解、实时反应和技能协调方面的局限性。
-
实时高效部署:除了基础模型外,Being-0的所有组件都可以在低成本的机载计算设备上运行,实现了在全尺寸人形机器人上的实时性能。
-
真实世界验证:在复杂的室内环境中进行了广泛的实验,证明了Being-0在执行包含导航和精细操作的长周期任务中的有效性。