深度智能的崛起（一）：“猫”“狗”AI们的野蛮生长

推荐会员: 点金大数据发布时间: 2017-11-07 12:00 阅读次数: 4,368 views

“世界的尽头，是雄狮落泪的地方，是月亮升起的地方，是美梦诞生的地方。”——大卫《人工智能》

引言：大数据时代，大数据驱动的深度智能生逢其时，就像哈勃望远镜一样，可以推进人类文明的进步，从战胜人类顶尖棋手、帮助发现引力波到治疗癌症、金融交易、安全防控、气候模拟等。可以预见的是，随着深度学习技术体系的高速发展和这一波“猫”“狗”AI工程的野蛮生长，人类正在大踏步迈入大数据智能时代。以深度学习为代表的深度智能为什么会成为AI的热点？为什么深度学习会重塑机器学习和人工智能？为什么被寄希望为通往通用人工智能的关键技术？为什么深度学习能一鸣惊人？让机器大步跨入感知智能时代？深度学习又能否在未来机器攻破认知堡垒的过程中担当大任？当然对于这些重大进步，也有质疑的声音，并不是每个人都认为深度学习可以实现与人类智能相媲美的AI，一些批评者认为，深度学习和人工智能研究忽视了大脑本身的生物学、神经学知识，偏向于黑箱式的强力计算，理论基础薄弱等等。上述种种，可谓仁者见仁智者见智，本文就来探秘深度学习技术、趋势和人工智能发展过程中的各种关键问题…

♦人工神经网络的早期发展

人工智能早期的发展进展缓慢，结果令人失望。对于许多问题，早期AI研究人员认为机器必须有大量的知识才能“聪明”，希望通过知识的表示和符号逻辑的推理实现机器智能，于是提出了专家系统方法，比如通过计算机程序实现领域专家提供的经验规则来解决医疗诊断等问题，根据病人的数据去匹配一系列规则，如果这种疾病没有得到正确的诊断，那么专家会增加额外的规则来缩小诊断范围。IBM的沃森人工智能就是一个经典AI系统的现代版本，沃森的核心技术是基于大量现实问题来构建复杂的知识库，它需要领域专家的密切参与来提供大量数据并评估其性能。这种经典AI方法虽然能解决了一些明确定义的问题，但由于自身无法进行自我学习和进化，谈不上真正的机器智能，离人类的智能还很远。

面对经典AI方法的缺陷，一些早期AI研究人员也在探讨人工神经元模型的思想，结合反向传播方法，构建了人工神经网络（ANNs），尽管当时还对真实神经元的工作方式知之甚少。而且神经网络的设计与真正的神经元几乎没有共同之处，设计重点也从生物模拟转向了从数据中学习的思路。所以，人工神经网络比经典AI方法更大的优势在于它能从数据中学习，不需要专家知识来提供规则。直到现在，人工神经网络仍然是机器学习关键技术之一。虽然传统的神经网络系统可以解决许多使用经典AI无法解决的问题，但是它们仍有较大的局限。例如，在数据不足的情况下，学习效果很有限，另外不能处理数据动态变化的问题，而且在当时即使有大量数据，也存在计算能力不足的瓶颈。这也是为什么神经网络在当时流行一段，后来又衰落下去的原因。当然从早期的研究来看，神经网络已经展示出了强大的学习潜力，用辛顿（Hinton，深度学习的创始人，深度学习四大金刚之一，如图1）的话来讲：神经网络提出了机器根据经验和数据进行学习的宏伟远景，就像幼儿自我学习进化一样，而不是通过人类量身定制的规则和无休止的知识灌输和监督指导。传统的经典AI方法大部分都受到了逻辑的启发，但是逻辑是人长大后才做的事情，三岁小孩学习从来不靠逻辑，很多成人做事也不讲逻辑。因此在我看来，神经网络是让我们了解智力如何运作的一个比逻辑方法更好的范例。

图1 深度学习四大金刚

♦这一波 “猫”、“狗”AI的野蛮生长

早期的神经网络研究尽管取得了值得称道的进展，但前些年为什么没有成功，这就是因为我前文所讲的大数据智能三要素还不具备。一是由于当时的计算能力瓶颈，使得基于神经网络的机器学习黯然失色，这种情况持续了几十年，直到GPU加速的问世；二是缺失的标注数据，尽管10年前互联网就开始充斥着大量的数据，却没有被标注，而被标注的海量数据才是神经网络最需要的燃料。这也是斯坦福大学教授李飞飞最关注的东西，她致力于数据驱动的机器学习。但从2006年，深度智能开始了崛起之路。

2006年，Hinton提出了深度信念网络DBN，通过无监督预训练和有监督训练微调的方法在一定程度上解决了深层网络梯度消失的问题，由于没有特别有效的实验验证，该论文在当时并没有引起重视。

2009年，斯坦福大学华人教授李飞飞发布了全球最大的图像识别数据库ImageNet，收集了大量带有标注信息的图片数据供计算机视觉模型进行训练，拥有1500万张标注过的高清图片，第二年开始她每年举办一次计算机视觉比赛。

2012年，可以称为深度学习元年，在这一年有几个里程碑事件：

♦Hinton课题组首次参加ImageNet机器视觉比赛，构建的CNN网络AlexNet一鸣惊人夺得冠军，并且碾压传统机器学习方法的识别性能，从此深度学习声名鹊起，成为学术研究和企业应用研究的焦点。

♦微软首席研究员里克•拉希德（Rick Rashid）在会议上展示了基于深度学习的实时口译系统，把他的口语转化为英文，错误率为7％，再翻译成中文文本，然后深度学习系统用普通话说出翻译后的语言。

♦GoogleX的“猫”AI面世，这个系统在当时引起了轰动，他们采用16000个CPU计算资源构建了一个具有10亿连接的深度神经网络，并让它在YouTube上浏览和寻找猫。这套基于深度学习的识别系统不需要任何人工特征信息的帮助，就能从数千万张图片中找出那些含有猫的图片。传统的人脸识别是由程序员预先将整套系统编程实现，告诉计算机人脸应该是怎样的，设计好图像的分割和识别规则，系统才能对包含同类信息的图片作出识别，而猫AI却是自己发现了‘猫’的概念，之前没有人告诉过它‘猫’是什么，也没有人类告诉它猫应该长成什么模样。

2015年，ImageNet竞赛，微软研究院的深度学习网络获得冠军，识别错误率仅为3.57%，超越一般人类的识别能力。

2016年，李飞飞团队在教会了计算机去识别图像的基础上，基于卷积神经网络CNN和长短时记忆网络LSTM的组合实现，让计算机能像一幼儿一样学会看图说话，并会用“句子”进行交流，例如不止是说某张图里有只“猫”，还可以说“这只猫是坐在床上的”。

2016年3月，英国伦敦的DeepMind（2014年被谷歌收购）数年磨一剑，“阿尔法狗”AlphaGo横空出世，与李世石人机大战4:1获胜。

2017年5月，阿尔法狗战胜柯洁，在围棋领域彻底战胜人类，AlphaGo已经可以模仿人下棋的直觉，而且具备创造力，通过组合已有知识或独特想法的能力，不过这些能力目前仅仅局限于围棋。

2017年10月，阿尔法狗的升级版AlphaGo Zero（阿尔法狗零或叫阿尔法狗元）抛弃对数百万盘人类历史棋谱的训练学习，一开始就不知道何谓人类棋谱，只是自由随意地在棋盘上下棋，按设定的围棋规则和目标，靠周伯通式的左右互博，学习能力大幅超越原版阿尔法狗，可谓是无人自学3天，胜过人类3000年。

♦深度学习的“深度”价值

上述种种迹象表明，深度学习技术在加速AI发展进程的收敛。笔者认为深度学习不仅仅是神经网络那么简单，而是解码人类学习的一套宏大技术体系（从监督向无监督，从统计学习到强化、对抗、迁移、生成、判别、融合的终生学习等等…），深度神经网络不会像很多专家学者认为的那么不堪，什么黑箱，什么没有理论基础。Deep learning的横空出世必将使得未来的人工智能大放异彩，可以说现阶段基于大数据的深度学习已经让机器初步睁开了眼睛，能初步看图说话，能听会道，李飞飞教授所讲的当前AI已经具有4-5岁幼儿的能力，是很有道理的，深度智能下一步将会扔掉大数据，或自我创造大数据，或无监督来自我进化学习。当今世界，不少领域有着巨量信息和超级复杂的系统，例如电信、金融、天文、气候、医疗和经济领域，即使是领域内的专家也无法应对海量数据和系统的复杂性。同时，数以亿计的移动传感器、智能手机和互联网、无联网、企业系统还在源源不断地喂养数字地球，全球互联网和企业系统海量数据的爆炸式增长，给基于深度学习的人工智能插上了腾飞的翅膀。从AI的发展历程来比较，深度学习是一个阿波罗登月式的进步。Google的DeepMind通过将深度学习与强化学习相关技术的结合创造了AlphaGo，在围棋这个领域已经战胜人类的顶级棋手。这也是一个具有里程碑意义的AI成就。人工神经网络发展成为深度学习网络，通过利用强大计算资源和海量的训练数据，网络性能可以在某些问题的解决上逼近极限（如图2）。深度学习已成功解决了许多问题，如图像分类，皮肤病诊断，语言翻译，数据中心优化和分析基因、识别癌症，可以预见，未来能解决的重大问题将会越来越多。

图2 深度学习能力无上限？

我在前文《深度学习的“深度”价值是什么？》曾提到，深度学习的核心技术是几十年前就提出的人工神经网络，如果将人工神经网络比为火箭发动机一代，那么深度学习就是火箭发动机二代，升级了训练方式（Hinton大神首创），加装了高性能计算配置（做游戏显卡起家的Nvidia居功至伟），最关键的是有了互联网和企业级巨头们的海量大数据燃料。为什么神经网络换马甲为深度学习之后，能获得突破性进展（图像、语音、翻译等多个领域接近或完败人类），上述三个方面的天时地利人和发挥了关键作用。另外我们都知道，伟大的东西往往很简单，好比爱因斯坦的EMC方程，深度学习也是一种朴素、简单、优美而有效的方法：像小孩搭积木一样简单地构建网络结构；性能不够，加层来凑的朴素思想，这种标准化、易用性的处理架构，极大降低了机器学习的难度，当然最关键还是效果，就某些应用领域而言，深度学习在大数据环境下的学习能力完败传统方法，当你的大数据燃料输入深度网络之后，你可以惊奇地等待并发现，它比计算机科学家几十年努力所构建的大部分机器学习算法效果都要好很多，这不得不让人刮目相看。而阿尔法狗（AlphaGo）彻底战胜人类顶尖高手，更是深度智能应用的极致体现。

♦机器如何智能：从感知到认知

信息技术领域从来不缺乏流行词，从IT到DT，从云计算到框计算，从数据库到数据湖，从弱AI到强AI，从机器学习到机器智能…一堆眼花缭乱的技术名词，让人云里雾里。当谈及AI时，更是这样，有人工智能，也有机器学习；有机器学习，还有神经网络和深度学习；有感知计算，还有认知计算；还有机器视觉、机器人、自然语言、符号逻辑等若干概念和技术方向。我们先不用纠结这些繁杂的技术术语和概念，这些知识在任何一个搜索引擎或者AI教材书籍上都能查到，重要的是抓住关键矛盾，理清其逻辑联系。为了界定人工智能，我们首先要理解什么叫智能？智能通常可以被描述为感知信息的能力，并将其作为知识应用于环境的适应性行为，虽然还有很多关于智能的解释，但智能的本质基本上都涉及学习、理解以及为了解决实际问题而对学到的知识加以应用。智能至少包括三个方面的能力：理解、分析、解决问题的能力；归纳、演绎推理能力；自适应生存和发展能力，而这三方面的能力都离不开学习。这也是我们前文着重强调机器学习这一关键AI技术的原因，当然传统的符号逻辑构建的规则式AI系统也能一定程度上进行计算和推理，但他的学习是人类知识的嵌入式设计和灌输，机器本身并无自学习能力。
简单来讲，人工智能是指一套广泛的方法，算法和技术，可以使机器或系统看起来像人一样聪明，人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能最具代表性的解决方案包括IBM的沃森（Watson），苹果的Siri，谷歌的AlphaGo，还有亚马逊的Alexa等等。一句话，人工智能可以理解为模拟人类智能的软硬件系统。要做到这一点，AI首先需要能感知信息，并确定哪些信息有用；其次要能学习到相关特征和制定出问题解决的规则；最后AI要能调整优化自己，升级迭代智能水平。根据上述理解，AI不仅是分析数据，还要能解释数据，不仅是获取洞察和理解规则，还要能进行预测，最重要是能通过学习来提高自己！

一般来讲，传统的符号逻辑方法及一般的统计机器学习方法以科学运算、逻辑处理、统计分析和规则式AI、专家系统等为核心，很难称得上智能，人工智能要真正走向智能，需要从如下三个层次进行突破（如图3）：

图3 人工智能的三个层次

（1）计算智能：计算智能（Computing Intelligence）的概念由IEEE神经网络学会于1990年提出，通常是指计算机从数据或实验观察中学习特定任务的能力，计算智能是借鉴自然进化等计算方法（如仿生类算法：遗传算法、蚁群算法、DNA计算等，还有如神经网络算法，这些算法也可以看作是数据挖掘，机器学习和人工智能部分支撑技术）以解决复杂的问题。这种方法接近于人的推理方式，即使用不精确和不完整的知识，并能够以自适应的方式产生控制行为，比如使计算机能够理解自然语言的模糊逻辑，使系统通过像生物一样学习数据中的经验和模式。
（2）感知智能：感知智能就是要使机器具有视觉、听觉、触觉等感知能力。这离不开机器学习，所有机器学习方法都是关于从数据中识别出趋势，或者识别数据所适用的类别，以便在提供新的数据时，可以做出适当的预测旨。通过这种学习方式，能初步让机器“看”懂与“听”懂，并据此辅助人类高效地完成如图像识别、语音识别、语言翻译等工作。近年来，以深度学习为核心的机器学习方法取得重大突破和进展，使得机器的感知智能水平正在逐步接近或超过人类，AI当前的研究应用水平就处于这一阶段。
（3）认知智能：相比感知，认知智能更进一步，能初步掌握人类一样的理解、情感和交互能力。旨在让机器学会主动思考、决策及行动，以实现全面辅助或替代人类工作。认知智能具有自适应性，及能随着目标和需求进行自适应变化；交互性，能与外部参与者进行流畅互动和交流；迭代性，能通过反馈、记忆等升级优化自己的能力；最后一点要有对环境的理解能力，比如初步认识和理解所出的世界，对语言交流的环境理解等等。要实现认知智能绝非易事，必须解决机器非监督学习问题，技术难度很大，长期以来进展缓慢。认知智能也会用到各种机器学习技术，但只要机器学习方法是不够的，如何实现记忆、情感和复杂知识推理等，要么需要终极算法的支持，要么是集成多个高级AI子系统的一整套架构协同工作。在这个层面，AI的研究还处于相当初级的水平。

♦人工智能关键技术体系

如果说大数据技术是金字塔的地基和底座的话，那么AI技术就是金字塔的塔尖。从半个世纪以前人工智能的概念诞生以来，如何制造出智能机器，堪比造时光旅行机一样的魔力，吸引了数代研究人员的努力。迄今为止，积累了大量的基础性知识和相关学科技术。从人工智能产业链来看，AI技术体系包括基础性技术、机器智能技术及人工智能应用三个层面（如图4），其中基础性技术涉及广泛，除了基础的数据管理平台之外，主要包括经典AI方法和计算智能两个方面，经典AI涉及谓词逻辑、知识表示、确定性不确定性推理、专家系统等方法，经典AI方法也有人称之为符号智能，是以知识为基础，通过构建规则关系和逻辑推理来解决相关问题。这种思想认为人脑的思维活动可以通过一系列公式和规则来定义，从某种程度上讲，导致了经典AI研究进展缓慢。从早期的计算智能研究角度看，当时传统的机器学习方法，如贝叶斯网络、支持向量机、决策树等统计概率方法和进化计算方法（如人工神经网络、遗传计算、群智能计算等）也被视为AI的基础性支撑技术。

图4 人工智能技术与应用

从最近几年深度学习的跳跃式发展，来重新审视人工智能技术的话，传统AI方法的瓶颈凸显。真正的机器智能首先要解决感知的问题，而在基础性AI技术成熟之后，借助大数据资源，通过大规模数据的机器学习或深度学习、强化学习、迁移学习，我们离真正意义上的感知智能才越来越近。比如语音识别、图像识别、自然语音处理、场景识别和生物识别等领域的初步应用。认知智能由于技术的复杂性估计短时间内难以突破，现阶段还无从谈起，即使有限的感知也是靠数据的喂养，后续章节我们再来详细讨论这一问题。不过，当前这一波AI热潮带动的深度智能应用正在向纵深发展，除了语音识别和自然语言（处理，生成和理解）应用之外，还包括大部分目标识别任务，如模式，文本，音频，图像，视频，面部等方面，另外在自动驾驶，医疗诊断，搜索引擎，打击犯罪，市场营销，机器人等相关领域的落地应用都有望突破。

未完待续…

来源：点金大数据

AI 人工智能感知机器学习深度学习深度智能深度网络认知