分享好友 资讯首页 频道列表

李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则

2021-02-26 17:50:16 1770

来源:新智元[简介]在6亿多年的进化过程中,动物表现出了非凡的物理智能,并利用进化来学习复杂的任务。研究人员表示,AI代理也可以快速学习动物的这种智能行为,但在促进具身认知方面存在诸多挑战。最近,斯坦福·李菲菲教授等人在“深度进化强化学习”的研究中取得突破,首次证明了鲍德温效应。Agent/agent是人工智能领域的一个主要研究课题,可分为 非物理智能 和 身体智能 。创造具身智能体是一项极具挑战性的任务,因此人工智能领域更关注“非具身认知”。最近,李菲菲和其他几位学者提出了一个新的计算框架 深度进化强化学习 基于该框架,具体化代理可以在多个复杂环境中执行多个任务。此外,本研究还首次通过形态学学习证明了进化生物学 鲍德温效应。 。——3——1953年,美国古生物学家乔治·盖洛德·辛普森杜撰了“鲍德温效应”一词,在美国哲学家、心理学家JM·鲍德温1896年写的论文中提到了一个新的进化因素。在进化生物学中,鲍德温效应表明, 在进化的早代,刚开始学会的行为会逐渐变成本能,甚至有可能遗传给后代。在过去的6亿年里,进化带来了 无数种形式的美 : 从古代对称的昆虫到各种动物形态。这些动物也表现出非凡的 身体智能 ,利用进化来学习复杂的任务。具有身体认知的研究人员认为,AI代理可以快速学习这种智能行为,其形式可以很好地适应环境。然而,人工智能领域更加关注 “非体验认知” ,如语言、视觉或游戏。当AI代理能够很好地适应环境时,就可以在各种复杂的环境中学习控制任务。但是,创建这样一个代理非常具有挑战性,原因如下。这需要在大量潜在模式中进行搜索。通过终身学习来评价一个agent的适应性需要耗费大量的计算时间。因此, 以往的研究要么使智能体在极其有限的形态搜索空间中进化,要么在给定的人工设计形态下搜索最优参数 。适应性评估的难度使得以往的研究避免了直接在原始感官观察的基础上学习自适应控制器;学会用少量参数(≤100)手动设计控制器;学习预测一种形式的适应性;模仿拉马克进化而不是达尔文进化,跨代直接传递学习信息。此外,以前的研究主要局限于在地面上移动的简单任务。智能体的自由度(DoF)相对较小,或者由若干个立方体组成,进一步简化了控制器的学习问题。三个维度:环境、形式、控制。具体化代理可以执行什么任务? 深度进化强化学习(DERL)是斯坦福大学的李菲菲和阿格里姆·古普塔(Agrim Gupta)、西尔维奥·萨瓦雷斯(Silvio Savarese)和苏亚·甘古利(Surya Ganguli)提出的一种新的计算框架,它可以在环境、形态和控制三个复杂维度上扩大创造具身智能体的规模。 DERL为在计算机模拟实验中创建大规模具体化代理打开了大门,这有助于获得关于学习和进化如何合作以在环境复杂性、形态智能和可学习的控制习惯之间建立复杂关系的科学见解。此外,DERL还减少了强化学习 样本无效率 情况。代理创建不仅可以使用更少的数据,还可以概括和解决各种新任务。DERL模仿达尔文进化论的复杂性 代际进化 过程来搜索形态空间,并通过 终身神经学习 智能控制解决了评估给定表单的速度和质量的复杂任务。该论文的作者、斯坦福大学教授李菲菲说: “本研究不仅提出了一个新的计算框架,即深度进化强化学习(DERL),还通过形态学学习首次证明了达尔文-鲍德温效应。形态学学习对自然界动物的进化至关重要,现在已经在我们创造的人工智能代理中得到证明。” 。本研究中创建的代理可以在平地(FT)、可变地形(VT)和可变地形的非抓取操作(MVT)中执行巡逻、点导航、避障、探索、逃生、攀爬和斜坡推进 DERL:创建具体化代理的计算框架,通用动物形态设计空间 为了学习,每个主体只通过接受低级的自我感知和外部感知观察来感知世界,并通过由深层神经网络的参数决定的随机策略来选择自己的行为。随机策略通过近端深度神经网络的参数策略优化来学习。一般来说,DERL允许研究人员在1152个处理器上进行大规模实验,平均涉及10代进化,搜索和训练4000个形式,每个形式有500万个代理与环境交互(即学习迭代)。多形态进化动力学本研究可以在并行异步竞争中训练288个形态,因此整个学习和进化过程可以在任何给定时间16小时内完成。可以理解,这是目前为止 形态演化和RL的最大同时模拟 。为了克服以往形态搜索空间表达能力的局限,本研究引入了通用动物(UNIMAL)设计空间。本研究的基因型是运动树,它对应于由电机驱动的铰链连接的三维刚性零件的层次结构。运动树的节点由两种类型的组件组成:代表代理头部的球体(树的根)和代表肢体的圆柱体。通过...进化 三种类型 变异算子的无性繁殖:1。通过增加或减少树枝来缩小或生长移动的树;2.改变现有肢体的物理特征,如长度和密度;3.修改肢体之间关节的属性,包括自由度、旋转角度限制和传动比;最重要的是,这项研究只允许保留 两侧对称 成对变异,这是动物身体形态在进化过程中最古老的特征(起源于6亿年前)。一个关键的物理结果是每个代理的质心位于矢状面,这降低了学习左右平衡所需的控制程度。尽管有这种限制,本研究中提出的形态设计空间是高度表达性的,包括大约1018个至少有10个肢体的独特的主体形式。研究小组通过使用DERL证明了环境复杂性、形态智能和可学习的控制习惯之间的关系:首先,环境复杂性促进了 形态智能的进化 可以用形态学促进新任务学习的能力来量化。其次, 进化很快选择学习更快的形式 因此,在早期祖先生活中后来学会的行为在后代的生活中表现得更早。第三,实验表明,学习和控制可以通过物理上更稳定和更节能的形式的进化来促进。 鲍德温效应与形态智能 的出现是有机制基础的。参考链接是:https://medium . com/data phoset/evolutionary-rebuilding-learning-derl-Stanford-Li-Fei-Fei-and-other-schools-proposed-EB 20 a2 d 01087论文:

反对 0
举报 0
收藏 0
newmap | sitemaps