训练 50 小时就获 100 年功力,这个机械手比人手还厉害!

原标题:训练50小时就获100年功力,这个机械手比人手还厉害!
由伊隆·马斯克(elonmusk)创办的非盈利性人工智能组织openai,今天向我们展示了一项新的研究成果:让机械手可以像人手一样抓取和操纵物体。虽然这种仿真造型的手掌我们已经见过很多了,但让“手指”能够和人类的真手一样灵活可动,对机械结构来说可不是一件简单的事。但你在下面的动图中也能看到,这套名为dactyl的机械手系统能够按照指令要求,轻松完成转动立方体的动作,而且这种包含各种技巧的指尖操作,显然要比过去我们所看到的机器人行走跳跃复杂得多。
dactyl自所以能够实现这么高效的运作,和openai使用的强化学习算法有关系。就像是刚出生的小孩一样,ai或是机器人刚造出来后同样什么都不懂,如果你希望它能够完全理解某项复杂任务的流程,肯定需要进行反复的训练。尤其是对于真实存在的物理机器人来说,研究人员往往要耗费大量的现实时间对其进行指导练习。
但openai现在的做法,则是完全在虚拟环境中对ai机器人进行训练,然后再把ai应用在实体机器人身上。他们还会在训练的过程中增加大量的动态随机事件,让ai在这个过程中自己领悟出完成任务的诀窍。以这次的机械手掌为例,他们会在一个控制网络中教导机械手臂最基础的翻转指令,以及利用摄像头,在视觉网络中预估立方体的位置和方向;然后便开始改变周围环境的灯光和噪声,还有立方体的颜色、重量、纹理和摩擦力等;甚至是改变训练过程中的重力环境因素。
之所以会加入这些随机化的变量,也是为了让ai能更好的应对各种意外情况的发生:“比如说不同的重力环境下,dactyl自己就会去领悟这会对立方体操控造成哪些影响。不然在现实世界中,一旦我们改变手臂的高度,重力环境发生改变,立方体可能就会从手中滑落。”另外,由于不用模仿人类的行为,所以openai的训练方式也可以允许ai充分去思考人类没有思考过的方式,说不定还能获得意想不到的成果。
这种虚拟环境的训练模式还有一个好处,那就是不会耗费现实世界的时间。目前dactyl已经积累了大约100年的训练经验,尝试用无数种方法来控制立方体的转动,但实际上这个过程只相当于我们现实世界中的50个小时而已。在虚拟世界里完成训练后,ai就可以应用这些经验去分析现实世界里的动态因素,并调整自己的行为来完成任务了。如今dactyl已经可以连续完成50次的立方体旋转操作,且不会出错。
值得一提的是,这种超高效的训练模式不仅能运用在物理机器人上,也同样可以用于其它的虚拟ai模型。在去年7月份,openai开发的openaifive也同样在虚拟世界里经历了上万个小时的学习,实际上只是花费了几天的时间,然后它便在dota2游戏中击败了职业选手dendi。虽然只是一次solo对决而非5v5,但依旧让我们看到了人工智能在电竞这种复杂领域的有效性,包括我们所熟知的“围棋杀手”alphago,也是deepmind公司使用深度强化学习训练出来的ai模型。据说强化学习的灵感最早来源于人类对自然界动物学习过程的长期观察,之所以近几年内才开始尝试,也是受益于神经网络技术的进步,以及openai本身的规模优势。一旦强化学习的基准更为多样和复杂,自然也得付出不小的运算成本。按照openai给出的数据,dactyl的训练设备动用了约6144颗cpu,以及8颗来自nvidia的v100gpu,这种规模的基础硬件只有很少数的研究机构才能够使用。总得来说,openai提出的“将模拟环境的成果应用到现实世界”会是开发通用机器人的有效解决方案之一,但也有机器人专家认为,这种程度的实验结果只会局限在某一个特定任务上,能否真正解决现实世界的难题,则仍然是一个未知数。
题图来源:openai
最后的福利:我们准备了10部诺基亚x6手机,免费送给爱范儿读者。点击下方抽奖小程序参与抽奖,每天送2部,连续送5天,中奖率超高。
隐藏在直男身边的拍照小道具,你知道几样?