GO-1 模型让机器人通过看视频就能学习做家务
前华为天才少年“稚晖君”携智元机器人放大招,推出 Vision-Language-Latent-Action (ViLLA) 架构及通用具身基座大模型 GO-1,机器人训练迎来新突破。
ViLLA 架构通过预测隐式动作标记,让机器人能将人类动作视频转化为可执行动作序列,实现认知与动作双维度训练。 GO-1 模型融合视觉、语言、动作、触觉等多模态输入,规划并直接输出动作执行序列,可指导机器人理解任务、分解步骤、适应环境完成操作,如挂衣服等。
实验表明,GO-1 在多种任务上成功率大幅领先,平均提高 32%,在倒水、清理桌面等任务表现突出。其具备人类视频学习、小样本快速泛化、一脑多形、持续进化等优势,推动机器人向通用智能自主体发展,有望在多领域大展身手。
详情请见: 智元机器人
没有回复内容