深度学习三十年创新路

推荐会员: tutu 所属分类: 行业精选 发布时间: 2015-12-24 19:43
摘要: 深度学习火了,从任何意义上,大家谈论它的热衷程度,都超乎想象。但是,似乎很少有人提出不同的声音,说深度学习的火热,有可能是过度的繁荣,乃至不理性的盲从。而这次,有不同的想法出现了。本篇文章来自依图科技 …
深度学习火了,从任何意义上,大家谈论它的热衷程度,都超乎想象。但是,似乎很少有人提出不同的声音,说深度学习的火热,有可能是过度的繁荣,乃至不理性的盲从。而这次,有不同的想法出现了。
本篇文章来自依图科技 CEO Leo 的投稿,依图科技是一家专注研究 CV(Computer Vison,计算机视觉)的以技术驱动的创业公司,Leo 自己也在这一领域有深入研究,因此这次写下这篇文章,希望回顾一下深度学习三十年的创新之路。
近期 Nature 杂志刊登了 Lecun、Bengio、Hinton 的深度学习 (deep learning) 文章,是对最近深度学习火爆进展的总结,也是对他们三十年专注突破精神的最佳肯定。
深度学习火到什么程度呢?据我所知,在工业界,Google、Facebook、微软、百度、腾讯以及其它创业公司,没有一家公司不用深度学习可以做到顶级的智能识别实用精度(语音识别、人像识别等)。深度学习的广泛应用,让它载入史册,可以比肩最近人工智能领域的图灵奖工作–哈佛教授 Leslie Valiant 的可学习性理论(2010年 图灵奖,90年 代初在此思想下诞生了著名的 Boosting 算法)、 UCLA 教授 Judea Pearl 的基于概率推断的人工智能(2011年 图灵奖,90年 代末开始基于此思想的图模型风靡学术界)。
深度学习三十年创新路
上图为 Harvard 教授 Leslie Valiant
深度学习三十年创新路
UCLA 教授 Judea Pearl
我时常和业内人士交流 ,包括硅谷的工程师、研究员(图像分类、广告推荐等),风险投资者,美国学术界的教授,还有在创业公司的和在学校实验室做研究的清华、交大学生。大家对深度学习的历史背景缺乏全面细腻的了解,甚至有些盲从。
在我创业前,深度学习还没 “火”,我在 Yann Lecun 的实验室呆了一年,研究图模型和深度学习的关系——当时对两个体系都深刻理解的人几乎没有。而在本该功利的创业环境里,到目前为止,我们团队还未使用深度学习,显得有些 “另类” 甚至 “落伍”,所以带着这样熟悉又陌生的心情,今天想分享一下自己的体会,算是对深度学习以及 Hinton 和 Lecun 的三十年创新之路的致敬。
首先,来介绍下 Deep Learning 的主要人物背景:
Geoff Hinton 是深度学习学派的祖师爷,老爷子腰椎不好,经常得站着写代码到夜里一点,不能坐飞机,得坐火车从东边到西边去开会。
深度学习三十年创新路
Geoff Hinton,deep learning 学派创始人之一
Yann Lecun 是 Geoff Hinton 三十年前的弟子。最近深度学习应用于智能理解特别广泛的模型是卷积神经网(ConvNet),就是 Yann Lecun 发明的 / 命名的。在学术上,这和传统的深度学习其他的模型有显著性差异 —— 我甚至认为这是思想性的巨大差异(世界可学性的假设)。
深度学习三十年创新路
上图右为 Yann Lecun,卷积神经网的发明者,Geoff Hinton 的弟子
Andrew Ng 是 Michale Jordan( Berkeley 教授,图模型的泰斗)的明星弟子,Andrew 独立后,在 Stanford,、Google 和 Baidu 做的反而是 deep learning (有点武当弟子学了少林,或者少林弟子学了武当的意味)。后来做了网络公开课程 Coursera 后名声大噪,意义大大超越了其学术界的地位和范畴。
深度学习三十年创新路
上图为吴恩达(Andrew Ng),百度首席科学家,在线教育平台 coursera 的创始人
历史究竟发生了什么? 深度学习为什么突然火了?
标志性事件是,2012年 底,Geoff Hinton 的博士生 Alex Krizhevsky、Ilya Sutskever(他们研究深度学习时间并不长)在图片分类的竞赛 ImageNet 上,识别结果拿了第一名。其实类似的比赛每年很多,但意义在于,Google 团队也在这个数据集上做了测试(非公开的,Google 没有显式参加学术界的 “竞赛”),用的也是深度学习,但识别精度比 Geoff Hinton 的团队差了很多,这下工业界振奋了。
这个 “Google 团队” 的特殊意义在于,不同于其他 Google 团队,这个项目受到 Google 足够的战略级重视,有着世界级的明星领导者,包括 Andrew Ng,还有 Google 神人 Jeff Dean(他们在深度学习领域已投入很多,并到处宣讲他们的战果),以及业界无法企及的硬件和数据资源支持。我想,如果没有这样巨大反差,深度学习还不会得到这么快的传播和认可(当时的学术界还不知道 Google 内部的测试成绩,只知道 Geoff Hinton 得了第一,击败了另一个学术界顶级的 Oxford 团队;甚至今天,很多人还不知道这段历史)。两个 “小毛孩” 打败了业界神话。到这里,Google 投入产出并不有说服力,甚至是可耻的。
工业界似乎不需要、也不该关心面子。紧接着,巨头的垄断游戏开始了。在机器学习方面顶级年度会议(NIPS),Google 竞价超过了微软等其他公司,收购了 Alex Krizhevsky、Ilya Sutskever 和 Geoff Hinton 刚刚注册几个月的公司,好像是 5000 万美元买了三个人的部分时间。现在,Google 做不好的人可以正式拉着 Geoff Hinton 聊天了;Facebook 作为回应,挖了 Yann Lecun,让他在纽约领导成立了 Facebook AI lab;Andrew Ng 则离开 Google 去了百度。
从 “硬” 结果来说,其实此时的百度做得不会比过去的 Google 差,但 “软” 名声还是因此提高很多:相比于 Google X, Facebook AI lab, Google Brain 等,“深度学习研究院” 这个用算法命名部门的主意得要 “魄力” 的。后来 Yann Lecun 组的学生出来了一半,陆续开了几家深度学习的创业公司,其中一家早被 Twitter 收购。另外一些,加入了 Facebook 和 Google 。估计深度学习给 Geoff Hinton 和 Yann Lecun 的组带来了近十个千万富翁。
但更有意思的是(很有启发性并值得思考),Alex Krizhevsky 和 Geoff Hinton 的竞赛用的正是 Yann Lecun 发明的卷积神经网,但结果刚出来时(实现细节还没有公布),Yann Lecun 和他的 NYU 实验室成员甚至没法重复 Geoff Hinton 的结果。自己发明的算法,使用结果不如另外一个组。这下炸了锅,Yann Lecun 开了组会,反思的主题是 “为什么过去两年我们没有得到这样的成绩” 。
高手过招,Idea is cheap; The devil is in the details (有想法很廉价;魔鬼在细节处)。想法其实很重要,但只能区分高手和普通人。高手都有想法,但谁才能创造历史呢?Yann Lecun 这样的实验室需要反思什么呢?先看看他们有些什么吧。我经历过巅峰时期的微软亚洲研究院(十五年前,这里的实习生只能是名校的各系第一名)、UCLA (排名 10 名左右)、MIT AI lab (计算机专业第一名),实验室的茶歇时间 Tea Time, 过道挤满了顶级会议的最佳论文获得者—NIPS, CVPR 等 。基于以上经验,我先介绍一下 Yann Lecun 实验室的过人之处。
Yann Lecun 上课教授和使用的是他自己写的语言 Lush,用来替代 matlab(很方便描述矩阵运算、图像处理等)、python 在科学研究的功能;他的团队三十年如一日的专注于神经网络的研究,从不随波逐流,课题覆盖卷积神经网的方方面面。有的博士生聪明数学好,非常敏感于卷积神经网模型的深刻理解;有的博士生专注于结构参数的行为分析(多少层啊之类);有的博士生研究在不同数据分布(应用场景下)的表现,比如字母识别、图像分类、物体检测、场景分类等。
这样的学术坚持,是在怎样的艰难背景下呢?人工智能领域,神经网络思想在 80年 代末开始衰落,之后分别经历了几个划时代的图灵奖级工作的兴起,统计学习理论(带来支持向量机 SVM 算法),可学习理论 (带来 Boosting 算法),概率推断(图模型,graphical model)几乎垄断了过去的三十年。在之前提到 2012年 的 Geoff Hinton 团队的深度学习打败 Google 的标示性事件前,图模型的思想横扫计算机视觉领域(超越了 boosting,SVM 等)。这使得深度学习生存艰难,没有多少同行在研究中使用深度学习,更多年轻学生愿意去 “时髦” 的机器学习研究组。
2006年,Yann Lecun 的文章还在阐述深度学习如何能跟当年流行的图模型(比如条件随机场模型)等价,证明自己的工作在不同数据集上也能和图模型做到相当的识别精度。尽管在 2012年 末,Alex Krizhevsky、Ilya Sutskever 两个 “小毛孩” 在竞赛中用深度学习打败了 Google 团队,工业界炸锅。但是,工业界对深度学习的追捧传递回学术界发生在一年以后 ,原因是, 除了顶级教授因为私人关系能知道工业界最前沿进展,大部分学术界教授并没有公开渠道及时获取信息,但这些教授却是学术工作评审的主力。因此,直到 2013年,Yann Lecun 的文章在计算机视觉的顶级会议上(CVPR)依然很难发表(这时的深度学习在多项数据集上相比其他 “传统” 方法并不排他性的出色)。
Yann Lecun 像战士一下对抗着学术界的 “庸俗” 和 “传统”,在不同场合讨伐从业人员的态度、标准和品味,公开发文抵制计算机视觉顶级会议 CVPR,并于 2013年 创办了新的学术文章发布体系(ICLR)。可笑的是,仅仅不到两年的时间,现在,视觉的文章没用上深度学习很难发表。主流(不见得创造历史)的和最需要独立思想和自由批判精神的年轻学者,却似乎没有节操的要和深度学习沾上边(当上 “千” 个博士生都在研究深度学习的时候,应该不需要什么独立见解和勇气)。今天,反而是三十年后卷土重来的 Yann Lecun(还有 Bengio,Geoff Hinton)愿意站在先锋,批判性的谈论深度学习的泡沫繁荣,呼吁学术界、资金拥有者冷静。反差很是让人感慨。
深度学习三十年创新路
上图为 Yoshua Bengio
到底当时,Yann Lecun 和 Geoff Hinton 的团队细微差别在哪呢?高手也可能错过什么呢?或许我们很难有接近事实的答案,原因可能很复杂;但技术上的分解(下次我会撰文就这个问题专门讨论一下,期待有兴趣的朋友和我共同交流,邮箱:leo@yitu-inc.com)。以及对于历史的真实解读才有助于我们抛开浮华,启发一样追求创新的我们,无论是学术研究还是创业。
附:作者和深度学习的关系:作者 Leo 是依图科技 CEO,也是加州大学洛杉矶分校(UCLA)统计学博士,师从 Alan Yuille 教授,思想上属于 Bayesian 理念,继承大师 Stuart Geman(美国数学家,科学院院士, 他和弟弟在 84年 的马尔科夫随机场奠基性工作,足足影响了之后三十年的科研历史)、David Mumford(美国数学家,74年 菲尔兹奖得主)和概率学大师 Ulf Grenander 开创的 Pattern Theory 学派(这些数学家的工作大大早于计算机领域的图模型)。创立依图前,作者在 Yann Lecun 的实验室研究图模型和深度学习的关系,可以从不同视角看深度学习。
来源:http://science.dataguru.cn/article-8623-1.html
关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.