您的位置:永利手机网站 > 科技中心 > 计算机开始像人类一样推理永利手机网站

计算机开始像人类一样推理永利手机网站

2019-10-12 20:27

计算机开始像人类一样推理

原标题:MIT:AI 如同人类的推理机制来解决问题(附论文)

永利手机网站 1

麻省理工学院(MIT)林肯实验室智能和决策技术小组开发的模型为理解神经网络如何做出决策设立了新标准。

一种新型神经网络可推理复杂关系,包括不同物体的位置。图片来源:v_alex/iStockphoto

永利手机网站 2

你考虑购买的新家附近有多少个公园?一家餐厅里的最佳晚餐和酒的搭配是什么?回答这些日常问题需要进行关系推理,这种更高级思维的构成部分对于人工智能来说很难操控。现在,谷歌公司深度思维分公司下属的研究人员设计了一个简单的算式来处理类似的逻辑推理——而且它已经在一个复杂成像理解测试中战胜了人类。

图1:TbD-net解决视觉推理问题的方法是,将问题分成一系列子任务。每个子任务的答案/结果在显示相关物体的热图中显示,这样分析员就能看到网络的推理过程。

人类在关系推理——用逻辑联系和对比位置、序列及其他实体的一种思维——方面通常较为擅长。但AI的两个主要种类——统计和符号发展出类似能力的速度却很缓慢。统计AI或机器学习擅长于模式识别,但却并不擅长使用逻辑。而符号AI能够利用已经决定的规则推理关系,但却不擅长动态学习。

有人给女孩看了一张图片,上面有各种形状,让她找到红色的大圆圈。为了找到答案,她经历了几个推理步骤:先找到所有大的物体,接着找到红色的物体;最后,挑出是圆形的红色大物体。

新研究提出了跨越这一沟壑的方法:一种进行关系推理的人工智能神经网络。类似于神经在大脑中连接的方式,神经网络会将微小的程序连在一起,通过协作在数据中寻找模式。它们可以拥有处理图像、剖析语言或者甚至是学习游戏的特别架构。在这种情况下,新的“关系网络”可以被连接以对比各个场景中的每一对物体。“我们正在明确地让这个网络发现事物之间存在的关系。”该论文共同作者、伦敦深度思维分公司计算机学家Timothy Lillicrap说。

我们通过推理来学习如何解释这个世界,神经网络也是如此。现在,麻省理工学院林肯实验室智能和决策技术小组的一组研究人员开发出了一个神经网络,它可以执行如同人类的推理步骤,以回答关于图像内容的问题。该模型名为“透明设计网络”(TbD-net),它在解决问题时可视化呈现推理过程,让人类分析员得以解释其决策过程。该模型的表现胜过如今最好的视觉推理神经网络。

他和团队用若干任务验证了它们的关系网络。第一个网络是回答一个单一图像中事物之间的关系,如立方体、球和圆柱。例如:“蓝色物体前有一个物体,它的形状和灰色金属球右边蓝绿色的小物体形状相同吗?”对于这一任务,关系网络可以与另外两种神经网络相结合:一个是识别图像中的物体,另一个是解释问题。在很多图像和问题上,其他机器学习算式的正确率是42%到77%。人类得分是92%。而新关系网络联合体的正确率是96%,已经超过了人类的推理分数,研究人员在近日发表于预印本服务器 arXiv的文章中报告了这一成果。

了解神经网络如何做出决策一直是AI研究人员长期以来面临的挑战。正如其名称中的“神经”这部分表明的那样,神经网络是受大脑启发的AI系统,旨在复制人类学习的方式。它们由输入层和输出层以及介于两者之间负责将输入转换成正确输出的层组成。一些深度神经网络已变得如此复杂,以至于几乎不可能解释这个转换过程。这就是为什么深度神经网络被称为“黑盒子”系统,即使对制造它们的工程师来说,具体的内部机理也是不透明的。

深度思维团队还在基于语言的一项任务中测验了该神经网络,其中它会收到诸如“Sandra捡起足球”“Sandra去办公室”等表述。随后它会收到一些问题,如“足球在哪里?”。它在大多数类型的问题上表现得与多数AI算式一项出色,而且在所谓的推理问题方面尤其出色。例如,“Lily是一只天鹅。Lily是白色的。Greg是一只天鹅。Greg是什么颜色的呢?”。对于此类问题,关系网络得分可达98%,而其竞争者的得分在45%左右。最终,该算式分析了10个球在周围弹跳的动态模式,其中一些球被隐形弹簧或木棒连接在一起。关系网络能够利用这个动态模式,识别90%以上的连接。它随后后同样的训练方法识别移动点及其他为代表的人类形式。

借助TbD-net,开发人员旨在使这样的内部机理透明化。透明之所以很重要,是由于这让人类得以解释AI的结果。

“他们的方法的一个优势是在概念上特别简单。”纽约波士顿大学计算科学家、并未参与此项研究的Kate Saenko说,她也开发了一个能够回答关于图像复杂问题的算式。Lillicrap说,这种简单性——大多数进展被囊括在一个方程式中——使其能够与其他网络相结合,正如在物体比较任务中所做的那样。论文将此称为“一种简单的即插即用模块”,可让该系统的其他部分聚焦其擅长之处。

比如说,知道自动驾驶汽车中所使用的神经网络认为行人和停车标志到底有什么差异、它在推理过程的哪个环节上明白这种差异很重要。如果研究人员搞清楚了这些,就可以教神经网络纠正任何不正确的假设。不过TbD-net的开发人员表示,如今最好的神经网络缺乏一种有效的机制让人类能够理解神经网络的推理过程。

“我对这些结果感到震撼。”加州斯坦福大学计算机学家Justin Johnson说,他共同开发了物体对比任务。Saenko 补充说,神经网络未来有一天将有助研究社会网络、分析监控录像或是指导自动化汽车。

Ryan Soklaski和另外几名研究员Arjun Majumdar、David Mascharka和Philip Tran一同建成了TbD-net,他说:“提高视觉推理的性能这方面取得了进展,不过以牺牲可解释性为代价。”

永利手机网站,为了获得像人一样的灵活性,Johnson说,它将需要学习回答更多具有挑战性的问题。做到这一点可能不仅需要对比一组事物,而是要有效地对比三个事物、两对事物,或是一个更大集合中的几对事物。“我对开发能够想出其自身策略的模型非常感兴趣。”他说,“深度思维正在建设一种特殊的推理模型,那将不是进行更加普遍意义上的关系推理。但目前它依然是朝着正确方向迈出了极重要的一步。”

林肯实验室的研究小组借助TbD-net,缩小了性能与可解释性之间的差距。他们开发的系统的一个关键是“模块”集合,而模块是一种小型神经网络,专门用于执行特定的子任务。TbD-net被问到关于图像的视觉推理问题时,它将问题先分解成多个子任务,并分配适当的模块以完成各自的子任务。就像装配线上的工人一样,每个模块建立在前一个模块搞清楚结果的基础上,最后得出最终的正确答案。总体上来说,TbD-net使用了解释人类语言问题后将那些句子分解成子任务的AI技术,还使用了解释图像的多种计算机视觉AI技术。

Majumdar说:“将一系列复杂的推理分解成一系列较小的子问题,每个子问题都可以独立解决并组合,这是一种强大而直观的推理手段。”

每个模块的输出用该研究小组所说的“注意力掩码”(attention mask)来可视化描述。注意力掩码显示图像中模块认为是正确答案的物体上方的热图blob。这种可视化使人类分析员能够看到模块如何解释图像。

举例来说,对TbD-net提出以下问题:“在这个图像中,那个大大的金属立方体是什么颜色?”为了回答这个问题,第一个模块只负责找到大物体,生成那些大物体高亮显示的注意力掩码。下一个模块获得该输出后,从被上一个模块认为个头大的那些物体中找出又是金属的。该模块的输出被发送到下一个模块,这个模块在那些很大的金属物体中找出哪些又是立方体。最后,这个输出被发送到可以确定物体颜色的模块。TbD-net的最终输出是“红色”,这是问题的正确答案。

本文由永利手机网站发布于科技中心,转载请注明出处:计算机开始像人类一样推理永利手机网站

关键词: