SIGGRAPH2018论文:深度强化学习教机器人自己穿衣服!(附视频)提供M88明升官网,大宝游戏登录等新闻资讯

SIGGRAPH2018论文:深度强化学习教机器人自己穿衣服!(附视频)

来源:M88明升官网 | 时间:2018-11-24

 原标题:SIGGRAPH2018论文:深度强化学习教机器人自己穿衣服!(附视频)

 【新智元导读】让智能体自己学会穿衣服一直是个难题,除了对衣服的布料的材质模拟存在困难之外,穿衣过程中目标与衣服之间的频繁复杂的交互也会导致计算成本过高。在Siggraph 2018上,研究人员试图通过深度强化学习,将布料模拟融入学习框架,教机器人学会自己穿衣服!

 随着AI技术进步的日新月异,现在的机器人越来越智能,但不管是机器人还是虚拟模型,基本都处于“赤身裸体”的状态,即便是穿了衣服,也是靠着外部的力量或帮助穿上的。

 如何让这些智能体学会自己穿衣服一直是个难题,因为衣服的布料多种多样,材质性质各不相同,而且在穿衣过程中,衣服和身体会发生频繁而复杂的相互作用。这两点是解决“机器人学穿衣”过程中面临的最大挑战。

 本文表明,AI能够利用机器学习工具“自动发现强大的穿衣技能”,并设法训练出强大的穿衣模型,尽管对衣服布料的模拟计算成本很高。

 本文作者表示,让AI 学会穿衣服的秘诀就是触觉,可以用于动态调整AI的协调性,以适应褶皱、光滑、或材质诡异的布料。

 由于人和穿的衣服之间存在着复杂的相互作用,所以创建人物穿衣服的逼真动画是很具有挑战性的任务。我们采用无模型深度强化学习(deepRL)方法,实现自动发现由神经网络表示的、高鲁棒性的控制策略。

 虽然深度强化学习方案在复杂运动技能的学习方面取得了一些成功,但学习算法的数据特征与实际任务所需的、计算成本高昂的衣服和布料模拟任务并不一致。

 本文首次证明,通过设计合适的输入状态空间和奖励函数,可以把对布料的模拟结合到深度强化学习框架中,以便学习强大的穿衣控制策略。

 我们利用触觉信息的显著表示,来指导虚拟人物穿衣的过程,并将其用于奖励函数中,在训练期间提供明确的学习信号。我们发现,为了学习涉及各种穿衣操作技能的长时间运动序列,比如“抓住T恤衫的边缘”或者“拉袖子”,有必要将整个穿衣任务分成几个子任务,并分别学习控制策略。

 为此,本文引入了策略排序算法,该算法匹配从一个任务到输出分布的输出状态的分布,用于序列中的下一个任务。我们已经使用这种方法为几种穿衣任务生成角色控制器:即穿T恤,穿外套,以及在机器人辅助下穿袖子。

 我们提出了一个强化学习框架,来训练虚拟角色在模拟环境中穿上衣服。我们的方法将穿衣任务分成一系列子任务,这些任务之间的转换由一个状态机实现指导。比如,穿上外套这个任务包括以下四个子任务:将袖子套在第一条手臂上,把第二条手臂向后伸,将第二只袖子套在手臂上,最后将身体重新转到原来的静止位置。

 对于每个子任务,我们制定一个单独的强化学习问题来学习控制策略。为了确保这些单独的控制策略在按顺序执行时能够组成成功的穿衣序列,我们引入了一个策略排序算法,该算法将每个子任务的初始状态分布与前一个子任务的最终状态分布相匹配。

 这样得到的控制策略可以按照虚拟人与衣服的交互率实现按顺序应用。在通过子任务完成标准的状态机的转换下,产生多种成功的穿衣动作。

 由于每个子任务都是作为一个单独的穿衣过程而制定的,因此在转换点上直接执行策略往往会失败。 我们引入了一种策略排序算法,可确保不同策略之间的成功转换,从而实现按需要延长序列的任务。该算法主要由两个通道组成,在算法1伪代码中表示。

 我们提出了一个系统,通过使用强化学习和物理模拟,学习如何建立虚拟人物穿衣的动画。在将整个穿衣任务划分为可管理控制的多个子任务后,系统会单独学习每个子任务,将这些任务与状态机连接,并将每个子任务的输入状态分布与先前子任务的输出分布相匹配。

 我们发现,仔细选择对布料观察结果和奖励函数,对于这种策略的成功非常重要。我们的方法的结果不仅仅是穿衣序列,而是一个可以在各种初始条件下实现成功穿衣的控制器。

 尽管该系统在几个穿衣任务上取得了成功,但仍有改进的余地。我们的系统目前执行的上半身的穿衣任务,要想将穿衣任务扩展至下半身,需要将平衡机制纳入控制器。

 虽然我们建立的衣服观察空间足以完成所展示的任务,但是看看是否可以训练端对端控制器,利用模拟视觉来确定衣服的状态也是很有趣的事情。

 我们的基于触觉的观察有助于跨越模拟效率和表示能力之间的鸿沟,但更完整的人体触觉感知模型可能用于各种应用。

 最后,使用具有存储器的控制策略体系结构,可以减少必要子任务的数量,并将已学会的技能实现更大程度的推广。