蹒跚学步的孩童,学会了跌倒后如何站起来,慢慢感受平衡,最终学会用双腿走路,这个过程很大程度上是通过反复试验学会的。但是,波士顿动力公司的Spot和Atlas等机器人并不是这样的,他们被精心编码处理特定的任务,结果可能会非常好,但是在软件编程没有设计到情况下,机器人可能就会无所适从。据国外媒体1月6日消息,来自中国浙江大学和英国爱丁堡大学的一个联合研究小组称,他们开发出了更好的方式来解决这样的问题。
在最近发表在《科学机器人》杂志上的一篇论文中,联合研究小组详细介绍了一种人工智能强化方法,他们用这种方法让自己的机器狗“绝影”学会如何走路和自主从跌倒中恢复过来。该团队表示,他们首先在模拟环境中通过软件训练虚拟机器人。这个软件由八名经过培训以掌握特定技能的AI“专家”组成,例如,一个“专家”训练机器人流利的行走,而另一个训练机器人如何保持平衡。每次虚拟机器人成功完成一项任务时,团队都会以虚拟积分奖励它。这个过程听起来与Google最近用来训练MuZero算法的方法相同。
当八种专项技能培训完成后,研究团队开发了一个额外的神经网络,有些类似于运动队伍中的总教练管理,它将管理其他八种专项技能,在特定的情况下,还会根据需要对一种或者多种技能进行优先排序。最后,研究团队会将软件移植到原型机器人上进行实际测试。
他们研究的目标是创造更加智能化的机器人,这种机器人能够在行进中更加灵活地根据实际情况自适应选择技能,以便于处理未经训练过的任务内容。目前,该团队面临的挑战之一是如何减少模拟机器人训练所需要的计算力,这样研究才更具有实用性价值。