时间:2017-05-31 来源:互联网 浏览量:
毫不夸张地说,成为机器智能研究员真的是一件令人激动的事情。最近,机器学习(ML)和人工智能(AI)取得的一系列成功——从实现人机平等的语音识别到打败世界冠军的棋盘游戏,都表明了这些领域的发展前景。
然而,这些成功大多数仅限于在封闭的虚拟世界中,这种“封闭”世界的操作为AI agents提供了两个显着的优势。首先,这些AI agent只需要针对具体任务来设计操作——一个玩棋盘游戏的智能agent只需要理解下一步最好的走向策略是什么,而不需要其他的。其次,这些系统中的大多数AI程序都享受到丰富的资源——通过收集得到的经过注释的、接近无限的训练数据。无论是从繁琐的过去经验积累中,还是通过自我学习的技术都可以得到这些“大数据”。
那么,现在我们来考虑一下机器人、物联网(IoT)设备以及在现实世界中运行和执行任务的自主车辆设备,这超出了封闭式范式的狭义环境的假设。这些设备不仅要完成首要任务,还必须生活在一个开放世界中,接受着各种未建模的外部现象的挑战。除此之外,这些系统还需要通过最少量的训练来适应和学习。鉴于需要大量的技术的训练数据来获得成功的范例,例如利用强化学习、示范学习和迁移学习的设备来说,开放环境尤其具有挑战性。
虽然已经有了综合AI的例子,通过几个单独的组件可以搭建人工智能系统,但是我们仍然需要探索一些基本原理,从而使核心架构可以构建一个可以在现实世界中具有可适应性和智能性的系统。
AirSim的快照显示了在城市环境中飞行的飞机。插图显示实时生成的深度,对象分割和前置摄像头流。
在微软的研究部门,就正将机器人和网络物理系统相关领域的提上议程,其目标是探索和揭示统一的算法和技术结构,从而实现这种现实世界的人工智能。微软的信念是,在基础层面解决三个关键方面,以便实现在现实世界中建立AI agents的下一次重大飞跃。这三个方面分别是结构,模拟和安全,正如下述:
结构
结构:解决数据稀缺问题的一个方法是使用真实世界的统计和逻辑结构。比如环境中的秩序(如交通规则,自然规律以及我们的社交圈)可以非常有助于消除现实世界中所面临的不确定性。例如,我们最近在非确定性无悔重规划(No-Regret Replanning Under Uncertainty)的工作,显示了现有的机器人路径规划算法是如何利用风的统计结构,在数据不足的情况下来确定如何接近最优路径的。
该图显示了将其推广到不同结构化环境的能力。使用相同潜在机制的飞行四旋翼机构,通过学习学习来避免在不同环境下的自主障碍。
虽然传统方法已经将这种关系编码为统计学或逻辑模型,但在现实世界中真正运作的能力,却需要有机会才能有效地推断出来。而我们最近在学习用模仿进行探索(Learning to Explore with Imitation)方面的工作则朝着这个方向迈出的重大一步——隐含地了解世界结构的同时还在学习政策。这种方法的一个关键好处是在不需要关于结构知识的明确编码的情况下,允许用算法在多个问题域中进行泛化。我们在即将发表的RSS论文(RSS paper)中,会进一步分析了用模仿学习来解决马尔可夫决策过程(MDPs)的理论基础。
模拟
模拟:模拟现实世界本身就是一个完整的AI任务,但即使是对现实的近似也将成为这个庞大追求中的基本组成部分。我们公布的开源模拟项目就是旨在弥合这种模拟到现实的差距。不仅使用模拟来生成有意义的训练数据,而且我们还认为它是AI agent的一个组成部分,作为端口,来执行和验证他们计划在不确定世界中采取的所有行动。而这类似于在某些困难情况下,人类在行动之前是进行思考和模拟其行为的后果的。AI agents需要自我反省的能力,并可以从虚拟思维过程中学习。这些计划或政策的执行轨迹有助于验证轨迹轨迹的有效性和正确性。在这个根本问题上成功的关键,是将所有发生在模拟中的学习和推论转移到现实世界中的能力。我们还在继续投资和探索这个激动人心的模拟到真实(sim-to-real )AI的领域。
描述核心组件及其相互作用的仿真系统架构。
安全
安全:当AI agent决定执行行动时,从AI agent的角度以及生活环境的角度来考虑安全性是至关重要的。导致不安全行为的一个可能是机器学习和感知系统不能在环境中完全“理解”不确定性。众所周知,机器学习系统并不傻,因此我们最近进行的工作——安全任务规划的快速二阶锥编程(Fast Second-order Cone Programming for Safe Mission Planning)旨在实时实现可能采取的安全行动。其核心思想是利用机器学习方法产生了不确定性的几何结构,然后通过沃尔夫算法(Wolfe’s algorithm)优化安全幅度,这是快速且高效的。同样,这些想法也被进一步扩展,从而获得安全的,基于bandit的算法。我们正在与各位同事合作,探索安全的多方面事宜,诸如网络安全,验证和测试等。
我们展示了机器人需要避免障碍的假想场景。这种不完善的传感器提供了一个系统,此系统对传感的安全区域具有坚定的信念(蓝色和红线)。机器人决定考虑推论中的所有不确定性,并以非常高的概率确定安全的轨迹(黑色)。左图显示了所提出的方法(Wolfe的算法)非常有效,从而实现了实时决策。
最后,我们想以第一人称视角(FPV)的无人赛车事件为例子来总结,这些赛车事件越来越受欢迎。一般,比赛需要一名无人机操作员坐在椅子上,戴上显示器眼镜,将所有从摄像机拍摄的图像投射在极其敏捷的无人驾驶赛车上。令人难以置信的是,无人车操作员能够通过看似不可能的室内环境来操纵机器,同时还能保持非常高的速度。坐落在操作者耳朵之间的重达三磅的物块能够将高维视频反馈转换成四维遥控信号,从而以惊人的效率和极高的安全性来引导车辆。在这样的任务中,有可能击败人类大脑的真实环境下的AI agent将体现结构,模拟和安全这三个方面。
作者:AshishKapoor
来源:Microsoft Research Blog