机器人大讲堂获悉,近日,腾讯 Robotics X 机器人实验室公布了智能体研究的最新进展,通过将前沿的预训练 AI 模型和强化学习技术应用到机器人控制领域,让腾讯机器狗 Max 的灵活性和自主决策能力得到大幅提升。
让机器人像人或动物一样灵活且稳定的运动,是机器人研究领域长期追求的目标,深度学习技术的不断进步,使得让机器通过「学习」来掌握相关能力,学会应对复杂多变的环境变得可行。
腾讯 Robotics X 机器人实验室通过引入预训练模型和强化学习技术,可以让机器狗分阶段进行学习,有效的将不同阶段的技能、知识积累并存储下来,让机器人在解决新的复杂任务时,不必重新学习,而是可以复用已经学会的姿态、环境感知、策略规划多个层面的知识,进行「举一反三」,灵活应对复杂环境。
这一系列的学习分为三个阶段:
第一阶段,通过游戏技术中常使用动作捕捉系统,研究员收集真狗的运动姿态数据,包括走、跑、跳、站立等动作,并利用这些数据,在仿真器中构建了一个模仿学习任务,再将这些数据中的信息抽象并压缩到深度神经网络模型中。这些模型能够非常准确地涵盖收集的动物运动姿态信息,且具有一定的可解释性。
腾讯 Robotics X 机器人实验室和腾讯游戏合作,用游戏技术提升了仿真引擎的准确和高效,同时游戏制作和研发过程中积累了多元的动捕素材。这些技术以及数据对基于物理仿真的智能体训练以及真实世界机器人策略部署起到了一定的辅助作用。

在模仿学习的过程中,神经网络模型仅接收机器狗本体感知信息作为输入,例如机器狗身上电机状态等。再下一步,模型引入周边环境的感知数据,例如通过其他传感器「看到」脚下的障碍物。
第二阶段,通过额外的网络参数来将第一阶段掌握的机器狗灵动姿态与外界感知联系在一起,使得机器狗能够通过已经学会的灵动姿态来应对外界环境。当机器狗能够适应多种复杂的环境后,这些将灵动姿态与外界感知联系在一起的知识也会被固化下来,存在神经网络结构中。
第三阶段,利用上述两个预训练阶段获取的神经网络,机器狗才有前提和机会来聚焦解决最上层的策略学习问题,最终具有端到端解决复杂任务的能力。第三阶段附加的网络会获取与复杂任务有关的信息,例如在游戏中,获取对手的信息、旗子的信息。此外,通过综合分析所有信息,负责策略学习的神经网络会学习出针对任务的高阶策略,例如往哪个方向跑动,预判对手的行为来决定是否继续追逐等等。
上述每一阶段学习到的知识都可以扩充和调整,不需要重新学习,因此可以不断积累,持续学习。
获取更多机器人行业资讯,敬请关注机器人大讲堂官网:https://www.leaderobot.com/
更多精彩
*新品在即!这家正向开发L4级自动驾驶的企业,将展示最新成果
*普渡科技再获C4轮融资,1个季度融2轮,服务机器人赛道成2023年顶牛?
*稳准狠! 斯坦福无人机空中捕猎,12毫秒精准捕获,猎鹰附身一抓一个准
*尺寸不到一毫米!西北工业大学开发运动速度超快的无线微型机器人
*像鸭子一样的高尔夫机器人球童,正展现出移动机器人的新可能?
*手也太巧了!腾讯首次展示自研灵巧手与机械臂,可像人手一样灵活操作
*国产自研,首个髋膝一体机器人获批亮相,机器人技术本土化再度注入新动能
*IP68防尘防水,性能“狂飙”,协作机器人筑牢制造业守护“结界”
*重磅!高动态仿人机器人又添一员猛将,关键技术取得重大突破!
*AI“入侵”CG?制作全流程一键搞定,随时随地生成高品质吸睛大片
*一场属于机器鱼的“奇幻漂流”,可在细小血管中“逆流而上”!