论文速报《Being-0：结合视觉语言模型与模块化技能的人形机器人智能体》-1. 主要贡献

时间：2025-04-22 18:07:14

Being-0的主要贡献可以总结为以下几点：

分层智能体架构：提出了一个专为人形机器人设计的三层架构，包括基础模型层、连接器层和技能库层，实现了从高级语言指令到低级机器人控制的端到端映射。
模块化技能库：开发了一套丰富的模块化技能库，分离了下半身运动控制和上半身操作控制，分别解决稳定导航和精确操作的问题。
创新的连接器模块：引入了由轻量级视觉语言模型(VLM)驱动的连接器，解决了基础模型在空间理解、实时反应和技能协调方面的局限性。
实时高效部署：除了基础模型外，Being-0的所有组件都可以在低成本的机载计算设备上运行，实现了在全尺寸人形机器人上的实时性能。
真实世界验证：在复杂的室内环境中进行了广泛的实验，证明了Being-0在执行包含导航和精细操作的长周期任务中的有效性。

相关文章

论文速报《Being-0：结合视觉语言模型与模块化技能的人形机器人智能体》-1. 主要贡献

