DeepMind给厉害的AI测了IQ结

2019年04月11日 来源:

生活在一个AI“泛滥”的时代,我们几乎每天都能看到 AI 研究上的进展。昨天,AI 打 DoTA 战胜人类了;今天,AI 能自己找路了;明天,AI 能假冒人类打了。在担心 AI 会灭掉人类的人们眼中,AI 正像一只怪物一样野蛮生长,像一只侵略军一样从远方大跨步逼近。

然而实际上,你所看到的这些进展,只是不同的 AI 在特定方向的进步。虽然当前基于深度学习的 AI 热潮已经有五六年了,还是没有一个独立的 AI,像一个独立的人一样,能够地执行多种任务。

人们在形容 AI 时,通常会用这样一种说法:这个 AI 的智商,跟三岁小孩差不多。 智商(Intelligence quotient) 简称 IQ,是评价人类智商一个普遍接受的标准 。你有智商,我也有智商,就连三岁小孩也有智商。接下来问题来了:既然说 AI 跟三岁小孩差不多,那么它的智商到底有多少呢

得给 AI 测测智商了。

DeepMind要给AI测IQ自 AlphaGo 横空出世以来,AI 在解决一些复杂的、策略性的问题上,能力已经得到了证明。但如果想要更像“人”,AI 必须也拥有像人类一样的抽象理解能力。

现在的 AI 计算能力不用说了,推理能力也很强,所以只剩抽象理解能力了。Google 旗下的 AI 科研机构 DeepMind 认为,“基于神经络的机器学习模型取得了惊人的成绩,但想要衡量其推理抽象概念的能力,却非常困难。”

为了搞清楚现在的 AI 在抽象理解能力上究竟实力如何,DeepMind 还真给 AI 设计了一套测试题:

(论文地址 )这套测试题,借鉴了人类的 IQ 测试里的瑞文推理测验:给定一组图片,找到符合其“演进”规律的图片。

(图片来源:DeepMind 论文)在这种测试中取水头水下安装
,题目里并不会告诉你要找到符合什么标准的图形,而是需要我们根据日常生活中学习或掌握到的一些基本原则,来理解和分析测试中出现的简单图案。

要找到正确的答案,往往要借鉴我们从生活中明白的“演进”规律。比如小树苗长成大树,比如从 0 到1、2、3、4、5 的加法,再比如加减乘除。以上这些,就是我们生活中所提炼出的抽象的“演进”(progression)的意义,就是人类的抽象理解能力。

“但是,我们现在还没有找到办法,能让 AI 也可以从 ‘日常经验’中学到类似的能力。” DeepMind 在论文中说。

“不过,我们依然可以很好地利用人类的这种视觉抽象逻辑测试,来设计一个实验。在这个测试中,我们并不是像人类测试那样,考察从日常生活到视觉推理问题的知识转移。而是研究AI在将知识从一组受控的视觉推理问题,转移到另一组问题的能力。”

简单翻译一下这段话就是:DeepMind 先给 AI 喂一组由三角形构成的图像的视觉推理题库,等训练的差不多了星力捕鱼充值
,再出一组由方块构成的视觉推理题,让 AI 去回答,看它是能随机应变举一反三,还是学会了三角,换成方块就不灵了。

机器人仍需努力对于担心 AI 取代人类的朋友来说照排机价格
,DeepMind 的一部分实验结果确实是个好消息:一些棒的 AI 模型,在这个IQ测试中的表现得并不咋样。

正如预期的那样,当训练集和测试集所采用的抽象元素相同时,多个 AI 模型都表现出超过75%的准确率。

然而,当测试集和训练集出现变化,甚至有时候只是把黑点换成较暗的浅色圆点,AI 的表现就会像无头苍蝇一样,失去了准星。

(一些知名AI模型的表现 图片来源:DeepMind 论文)上面这些都是深度神经络领域的当红炸子鸡,测起智商来却没那么灵光了。

ResNet (Deep Residual Network),即深度残差络在其中一组测试中仅仅得到22.4%的低分。 要知道,它的提出曾被形容为CNN(卷积神经络)的一个里程碑式事件,它在络深度上比其他模型提升了n个量级,更重要的是它的残差学习方式,改良了模型的架构,因此一出现就秒杀众前辈。

测试中表现的 WReN 模型,则是 DeepMind 在关系络 (Relation Networks) 模型基础上改良的版本。它增加了对不同图像组合之间关系的分析,并可以对这类 IQ 测试的各种可能性结果进行评估。

不过,DeepMind 针对这个测试的逻辑,对一些模型进行改良,改良后的模型表现出明显的提升。

比如,在一些模型中,DeepMind 加入了元标记(meta-targets) 的辅助训练方法,让模型对数据集背后体现出的形状、属性(形状的数量、大小、颜色深浅等)以及关系(同时出现、递减、递增等等)进行预测,当这部分预测准确时,终回答的准确率就明显出现提升,预测错误时,回答准确率明显下降。一些极端情况下,模型回答的准确率更是从预测错误时的32%提升至了87%。

(元标记预测准确度与终答案准确率的关系图)DeepMind 表示,他们设计的这个实验,终目的并不是为了让 AI 能够通过这种 IQ 测试。他们关注的是 AI 泛化能力的问题。

泛化是指模型很好地拟合以前未见过的新数据的能力,这是机器学习界的术语,你也可以粗暴的理解成一个 AI 模型能否在各类场景中“通吃”。AI 的泛化能力越强,离啥都能干的所谓“通用人工智能”就越近。

DeepMind 在博客这样说道:

研究表明,寻找关于泛化问题的普遍结论可能没有任何意义。我们测试的神经络在某些泛化方案中表现,但是其他方案下却很糟糕。

诸如所使用模型的架构、模型是否被训练从而能解释答案背后的逻辑等一系列因素,都会对泛化效果带来影响。而在大多数情况下,当需要处理过往经验从未涉及的、或完全陌生的情景时,这些 AI 的表现很糟糕。

至少现在看来,AI 还有很长的路要走啊。

AI

相关文章
  • 油炸虾头的做法
    油炸虾头的做法

    油炸虾头的做法家里独创的美味,次用客户端上传,大家多支持。 主料虾头20个辅料面粉适量 油炸虾头的做法步骤1. 虾头与面粉搅拌,放入少量盐2. 锅中油加热至6分3. 放入裹好面粉的虾头4. 炸至金黄即可出锅,味道非常非常棒的。...

  • 开幕盛况抢先看
    开幕盛况抢先看

    一年一度端午节,又是龙舟竞渡时。“我们的节日——2010年岳阳端午旅游文化节暨首届湘鄂‘名楼名湖’龙舟争霸赛”将于13日在美丽的南湖麦子港拉开序幕。为方便广大读者观看开幕式盛况,深入组委会掌握了开幕式流程,提前向您奉献精彩。龙舟争霸赛当日,在...

  • 公务员一个月帮助3名亡者回家称一切太巧合
    公务员一个月帮助3名亡者回家称一切太巧合

    公务员一个月帮助3名亡者回家称“一切太巧合了”台海4月6日讯 据《联合晚报》报道,台湾线殡葬公务员离职率高,但也有人认为协助丧葬事宜是在“做功德”,有些公家殡葬单位人员不仅办理亡者身后事,有时也受托“寻墓”或“寻塔”任务。台北市殡葬处基...

  • 2012年境外直接投资逾810亿美元今年投资有望增加
    2012年境外直接投资逾810亿美元今年投资有望增加

    ■本报实习生王佳琪昨日,国家外汇管理局公布2012年第四季度及全年金融机构直接投资数据。据相关统计数据显示,2012年第四季度,境外投资者对我国境内金融机构直接投资净流入11.41亿美元,我国境内金融机构对境外直接投资净流出43.24亿美元。二者差额为金融机...

  • 朝鲜发表致全体人民呼吁书号召粉碎反统一阴谋
    朝鲜发表致全体人民呼吁书号召粉碎反统一阴谋

    摘 要:据朝中社报道,在发表“74”联合声明40周年之际,积极促进国家的统一。中新7月4日电 据朝中社报道,在发表74联合声明40周年之际,朝鲜统一民主主义战线中央委员会4日发表致全体朝鲜民族的呼吁书,号召朝鲜人民团结自主,积极促进国家的统一。1972年7月...

  • 我国民办高校首次获得研究生招生资格
    我国民办高校首次获得研究生招生资格

    新华北京10月17日电 ( 李江涛) 17日从北京城市学院获悉,北京城市学院等5所民办高校近日通过教育部审批,正式获得研究生招生资格。这是新中国成立以来,我国民办高校首次获得研究生教育资格,标志着民办高校学历培养层次进一步提升,打破了过去研究生招生由...