深度智能的崛起（二）：知识驱动、数据驱动与大数据驱动

推荐会员: 点金大数据发布时间: 2017-11-28 13:57 阅读次数: 12,695 views

“世界的尽头，是雄狮落泪的地方，是月亮升起的地方，是美梦诞生的地方。”——大卫《人工智能》

♦知识驱动的人工智能1.0

智能的发生、物质的本质、宇宙的诞生、生命的起源被认为是世界四大奥秘。人类的智能活动主要是获得并运用知识，可以说知识是智能的基础，为了使计算机具有智能，能模拟人类的智能行为，就必须使它具有知识。因此，早期的人工智能方法通常基于这样一个假设，即智能可以通过知识库和符号操作来实现。

符号AI的典型应用是专家系统，专家系统方法通过构建大量的判别规则来进行问题的推断，就像编程语言中的If…Then…处理逻辑一样，符号AI被设计成基于符号表示的输入、符号规则逻辑处理和结果输出，当问题涉及不确定性知识表示时，辅以模糊逻辑等不确定性推理方法。基于经典数理逻辑的知识表示和符号推理方法，又被称为人工智能的符号主义（Symbolicism）或逻辑主义（Logicism）学派。基于符号派的规则逻辑设计严重依赖专家知识和经验，所以大部分专家系统仅仅局限于某一细分领域的应用。客观来讲，这种知识驱动方法促进了早期AI的发展，特别是在逻辑证明方面，如吴文俊在数学机械证明的研究成果显著，能推演出大部分经典欧式几何定理。另外在基于知识库的专家系统研究方面，知识驱动的AI对现实世界中的常识性知识能快速应用，虽然谈不上智能和理解。

明斯基曾说：”常识是人类长期实践中总结出来的庞大知识体系，包含大量生活中学到的规则和异常现象、特性及趋势、平衡与制约等”。如何让机器快速掌握庞大的人类常识，除了大规模知识库之外，暂时还没有更有效的方法，这同样也是现阶段深度学习所面临的最大挑战。但是，知识驱动方法也有巨大瓶颈，如何让机器自动学习，符号派暂时还无能为力。笔者认为有如下几个方面原因：
（1）不确定性问题：虽然知识是智能的基础，但知识需要用适当的模式表示才能让机器有效处理，知识的表示也是人工智能中一个十分重要的研究课题。对于确定性知识，符号AI可以有效处理，但不确定性知识的处理当前还是比较困难，很多处理任务是难以明确定义的，比如车牌识别，正常情况下可以设定各种规则来匹配，但遇到模糊、扭曲、或光照条件不好的情况下，这种规则系统的效果就难说了。面对不精确、模糊的或不完备的知识，比如医生看病，就是典型的不确定性问题，首先对症状和病理的分析一般是很难完备的，病人的描述很多时候也是模糊和不精确的，还有仪器检测出来的指标也只是一个范围参考等等，不管是模糊逻辑还是粗糙集理论也好，在现实应用中都难以解决类似问题。还有如卷积神经网络理解的从低到高各层抽象特征（像素、边缘、形状等），更是难以用符号逻辑和规则系统进行处理。
（2）自学习问题：规则是死的，人是活的，知识是动态的。符号派AI如何自学习，如果自动从大数据集中学习到模式和特征，从当前的技术发展看，还十分困难。知识库需要新的设计思路，如基于本体的知识库搜索，知识更新等还有很多难题需要解决。
（3）处理效率问题：这个问题很容易理解，传统的专家系统在一个细分领域还能初步覆盖大部分知识，人工建立规则也不是太困难。但在大数据时代，面对多源异构的海量数据，面对环境的动态变化，面对增量的学习等等问题，人工或者半自动化设立规则系统都太重量级了。

♦机器学习：数据驱动人工智能2.0

如果把知识驱动的AI称为人工智能1.0的话，那么大数据驱动的智能就是人工智能2.0。经典人工智能基于符号逻辑推理和专家系统，而人工智能2.0基于概论统计加机器学习（或深度学习）。人工智能的研究是从以“推理”为重点到以“知识”为重点，再到以“学习”为重点，一条自然、清晰的发展路径。学习是人类具有的一种重要智能行为，机器要智能决然离不开学习，但究竟什么是学习，却众说纷纭。人工智能先驱西蒙认为，学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高；从事专家系统研究的观点认为学习是获取知识的过程；心理学家认为学习是技能的获取；物理学家认为学习是事物规律的发现过程。学习既可能是自觉的、有意识的，也可能是不自觉的、无意识的；既可以是有教师指导的，也可以是通过自己实践的。学习的目的是要能适应环境的变化、积累相关经验。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、线性代数、算法设计等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，机器学习是人工智能的核心。数据驱动的机器学习，不需要人工设定知识和规则，而是使用了一套基于概论统计规律的自动特征学习系统，它能直接在数据集上训练出一套隐式规则构建出模型（如上图），尽管这些模型规则难以被设计人员理解和解释，只是满足统计意义上的正确推理，只要自学习出来的规则系统预测准确率够高，我们就认为他是有效的。

面对人工智能1.0的局限，机器学习另辟蹊径采用了一种完全不同于符号逻辑的思路，机器学习是一种让机器基于数据学习出规则而不是通过人为的编程指令来建立规则，通过算法来解析数据，直接从数据中学习到规律并构建模型，基于训练好的模型来对新的数据做出预测和辅助决策。数据、算法和模型是机器学习的关键驱动因素，数据驱动的机器学习能够不断从新的数据中进行学习，并适应外部环境的变化需求，提供可靠的预测分析结果。
一般来讲，机器学习按学习形式可以分为如下几种典型的任务：

（1）监督学习：不管是学术研究还是工业应用，监督学习是最常见的机器学习方式。简单来讲，监督学习任务就是从已经标注好（类别）的训练数据中进行学习，构建出机器判别模型，再通过已经构建好的模型去预测新的数据，从而进行分类识别或回归预测。就像幼儿第一次认识苹果，需要人教他什么样形状和颜色的水果才是苹果，给水果打上的苹果标签就是一种监督学习。进一步用形式化方法描述的话，可以这样理解：监督学习通过输入变量（x）和输出变量（Y）的处理，并使用算法学习输入到输出的映射函数Y = f（X），也称为近似目标函数，当有新的输入数据（x）时，可以预测该数据的输出变量（Y）。因为从训练数据集中学习算法的过程可以被认为是一种教师指导学习。我们知道正确答案Y，该算法迭代地对训练数据x进行预测，并由教师纠正，直到算法准确率达到可接受的水平时学习停止。分类和回归问题就属于典型的监督学习任务，比如判别是否为垃圾邮件，医疗诊断是阴性还是阳性，股票的预测等等。
（2）非监督学习：直接从“未标记”的数据集进行学习推断来描述其隐藏结构，由于原始数据集没有分类标签，需要通过算法学习来提取分类并训练生成模型。无监督学习只有输入数据（X），没有相应的输出标签Y，也就是说没有正确答案（老师），算法自己来发现和呈现数据中有趣的结构。聚类问题就是典型的非监督学习任务，把已知数据集通过聚类算法划分为不同子集类别。
（3）半监督学习：有大量的输入数据，只有一些数据被标记的问题，被称为半监督学习问题。这些问题处于监督学习和无监督学习之间。一个很好的例子就是一个照片档案，其中只有一些图片被贴上了标签（例如狗，猫，人），大多数都没有标签，这是因为标注数据可能要花费大量时间或需要专家知识的支持。而无标签的数据便宜，易于收集和存储。这时可以使用无监督学习来发现和学习输入变量中的结构，还可以使用监督学习对未标记的数据进行猜测或验证，并将结果作为训练数据反馈给监督学习算法。
（4）强化学习：强化学习是当前的一个研究热点，也是AlphaGo系统的核心技术之一，关键策略是如何基于环境展开行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这种学习方法具有一般性和普遍性，在博弈论，控制论，运筹学，信息论，多智能体系统，群体智能等领域都有大量研究和应用，在后文我们会就强化学习做深入的探讨和分析。

机器学习提供了一个新的数据分析范式，通过输入数据和目标数据映射，自动学习构建决策模型，大大提高了数据分析的自动化水平，提升了数据分析效率。机器学习任务涉及问题理解、选择算法、超参调整、迭代建模以及模型评价、模型部署等一系列工作。如何快速探索数据，以及通过更有效的调参和诊断来提高模型的准确率，机器学习流程的设计优化十分关键。不同的机器学习方式其处理流程大同小异，我们以监督学习为例来看看最常见的机器学习流程（如下图）。

1）根据分析目标，获取源数据，并对源数据进行清洗、抽取或转换（ETL），在应用机器学习模型之前，所有的数据都必须转换为标准数据集形式（表格或文本文件等），构建符合模型输入规范的数据集。这个数据预处理过程也是最耗时、最困难的部分。
2）数据处理好之后，需要分析其各项属性特征，选择与分析目标相关性较大的特征项。这对传统机器学习技术来讲，是十分关键也是最难的一个环节，有些特征的选择需要领域专家的经验，有些特征选择需要做因子分析等通过统计规律来进行筛选判断。
3）构建模型输入的标准数据集，对每条记录的标签（预测目标）进行离散化或者数值化，也就是转换成连续型数字或者0/1/2、true/false等离散化值，或字符串类别值；标签决定了机器学习的任务类型。例如：
单列，二进制值标签属于分类问题，一个样本仅属于一个类，并且只有两个类，比如判别是否为垃圾邮件；
单列，实数值标签属于回归问题，只预测一个值，比如预测下一个时间点的股票或交通流值；
多列，实数值标签属于回归问题，多个值的预测，比如预测下一个时间段的股票或交通流值；
多列，二进制值标签属于多分类问题，一个样本属于一个类，但有两个以上的类，比如手写字识别问题；
多个标签属于分类问题，一个样本可以属于几个类，比如身份识别，一个人可以有多个身份。
另外还需根据特征需求，对输入特征值进行缺失值处理或规范化处理；最后进行训练集、测试集或验证集数据分割。数据集分割有很多方式，比如最常用的交叉验证法、随机选择法和保留法等，主要考虑的两个因素是比例和信息熵。
4）根据分析目标选择合适的机器学习算法，比如是预测数值型任务还是预测离散型类别任务，选择相应的回归或分类算法进行建模。首先输入训练集进行建模训练，调试各项算法参数，并通过验证集或测试集进行模型的验证和性能评估，根据分析结果来调整优化参数，使得模型达到设定的预测性能
5）最终结合真实数据进行模型的评估和准确生产部署，以支撑实际业务。

♦深度学习：大数据驱动的机器学习2.0

同样，如果把传统机器学习算法称为机器学习1.0的话，那么大数据驱动的深度学习（或强化学习、迁移学习等）就是机器学习2.0。经典机器学习需要人工的特征工程，而特征工程的好坏直接决定了模型的性能，经典机器学习算法的性能瓶颈除了算法本身机理之外，最大的瓶颈就是特征工程，传统的方法是手工设计良好的特征提取器，这需要大量的工程技术和专业领域知识，严重依赖专家经验，而一般人很难对一个问题相关特征的重要性有准确把握，这极大制约了机器学习的发展。而基于深度学习的机器学习2.0把特征工程自动化了（如下图）。

机器学习1.0 = 数据 + 特征 + 模型，给定源数据，经典机器学习方法需要对数据进行整理、清洗、抽取、转换、拼接和特征工程等操作之后才能输入模型进行训练，学习阶段主要对特征和模型两个方面进行优化，良好的特征抽取和表示，是机器学习成功的关键，也是学习计算的关键部分，可见传统方法是一个复杂繁复的过程。而机器学习2.0=数据+自动特征学习模型，深度学习能否使机器学习更标准、更易用、更智能，同时通过数据驱动来降低机器学习技术的应用门槛，这是AI技术当前发展待突破的瓶颈，至少在自动特征工程方面，我们看到了机器优于人力的潜力，所以科技巨头们都纷纷押重注争抢这一技术至高点，种种迹象表明以深度学习为代表的新型机器学习2.0技术体系有望担此重任。深度学习作为一种自动特征学习方法，把原始数据通过一些简单的但非线性的模型转变成为更高层次的、更加抽象的表达。通过足够多的转换组合，非常复杂的函数也可以被学习。这种算法的核心是，使用一种通用的学习过程从数据中学习各层次的特征，而不是手工设计特征提取器。

当然深度学习也有其局限，比如深度学习进行人脸识别过程中提取的特征，让设计人员也难以解释，甚至很多做机器学习的人都难以理解神经网络为什么会提取出这样的特征，也不知道为什么深度网络有如此优秀的识别效果。但不可否认的是，模仿与借鉴人脑的学习机制能极大提高机器学习能力，由于脑科学和神经科学的限制，我们对人脑的内部机理理解还很有限。

深度学习源于人工神经网络，通过自动组合低层特征形成更加抽象的高层特征方式来表示属性类别，以发现数据的分布式表示和关键特征。深度学习仅仅借鉴了大脑视觉皮层的分层处理机制，强化学习仅仅借鉴人类行为的奖惩激励机制，就能在机器学习领域取得如此成绩，可见机器学习的学习能力（Shallow>Deep>Deeper）还有很大的拓展空间。

未完待续…

来源：点金大数据

专家系统人工智能数据驱动机器学习知识驱动