深度学习芯片大战,英特尔为何看上Nervana?

推荐会员: dtfaner199 所属分类: 行业精选 发布时间: 2016-08-12 23:37
深度学习创业公司 Nervana Systems 一直是机器之心重点关注的人工智能领域的创业公司之一。在文章《深度 | 深度学习创业公司需要了解的12件事》中,该公司的三位创始人讲解了深度学习创业需要了解的事项。作为最早的一批人工智能创业公司,如今它的价值已经被科技巨头所看重。今日消息,该公司已经被英特尔以 4 亿美元的价格收购。
英特尔这家芯片巨头显然认为机器学习将成为数据中心的下一个显著增长点。为了在企业数据中心的下一次变革中占据领先地位,英特尔投入巨资收购了深度学习创业公司 Nervana Systems。英特尔并没有透露此番收购 Nervana Systems 公司的具体价格,但据 Recode 援引消息人士的说法,此次交易金额大约在 4.08 亿美元左右。很显然,对于只有48名员工的 Nervana Systems 公司而言,这一价格的确不菲(在此之前,该公司已融资 2800 万美元)。
Nervana 公司此番出售,也代表着这是第一家离开 Andy Rubin 旗下的硬件孵化器 Playground Global 的重要公司,这个硬件孵化器是 Nervana 公司的重要投资方。其它投资者还包括 Data Collective、DFJ、Lux Capital 和 Allen & Co。
Nervana 成立与三位创始人
Nervana 早期融资的领投人 Steve Jurvetson 表示,他被 Nervana 公司创始人的独特背景所吸引,「这是一个一直不走寻常路的团队。」Nervana Systems 创立于2014年,是一家位于圣地亚哥的创业公司。该公司的三位创始人 Arjun Bansal、Naveen Rao 和 Amir Khosrowshahi 在高通公司工作时认识。 Nervana 承载着他们一个共同的目标:将开发者迫切需要的简洁性带入到大脑所启发的算法的应用中。
 「很多客户其实并不知道深度学习能做什么,也不知道如何将其整合到自己的产品线里。」
 该公司的主要业务是为深度学习提供易于使用的云计算平台,其它公司可以使用该平台为自己开发更智能的应用。
 创办Nervana之前,Amir Khosrowshahi 和 Rao 带着这个想法去找 Bruno Olshausen(Amir 的博士生导师)。Bruno 当时说的大概意思是,「做吧,现在就做!应该还不会太晚」。他的话成了 Rao 他们把想法付诸行动的催化剂。之后他们邀请 Arjun Bansal 加入创业团队,Nervana 诞生了。Amir 随后咨询了他的表兄 Ali Partovi,他是 Code. org 和 iLike 的联合创始人,也是一名拥有丰富资源的天使投资人。Ali 是 Nervana 的第一位投资人和公司值得信赖的顾问。他在他的网站上推介 Nervana 公司,并与 Rao 他们一起集合了一批高水平的种子投资人。很快,Carey Kloss 和 Andrew Yang(Rao 的密友和前同事)加入了 Nervana 领导硬件开发工作。Rao 很自豪,因为仅仅用了两年半,他们就推进了深度学习技术的性能,而且很快还会有一个革命性的新架构。20160329_085028_940
Naveen Rao
 Naveen Rao 是 Nervana Systems 的联合创始人和 CEO。他既是一位计算机架构师,也是一位神经科学家。毕业后,他加入高通,负责领导一个研究项目,旨在打造一个「生物学启发下的人工神经网络。」这个项目后来变成了 Zeroth AI,一个帮助公司用高通芯片打造深度学习系统的软件平台。不过,当公司拒绝将他的研究转化为产品时,他决定成立自己的公司。
Arjun Bansal
 公司联合创始人、机器学习负责人  Arjun Bansal 有超过 12 年的研究经验,涉及范围跨越计算神经科学和脑机接口;他同时还是 Slater Fund 的一位风险投资人和微软公司的软件工程师。他在哈佛医学院和波士顿儿童医院的神经外科完成了博士后研究,帮助分析来自癫痫病人的大规模神经生理数据。
这方面的研究已经有相对多制造假肢方面的应用:将芯片嵌入到瘫痪病人身体中,这些信号可以用来控制机器臂或屏幕上的光标等事物。「从很早开始,我就对人工智能应用感兴趣了。那是快要到 90 年代末期的时候,我们差不多进入第二个人工智能的冬天。我的教授和导师建议我看看其它领域,所以我锁定了神经科学,因为我真的对大脑工作方式非常感兴趣,那时候人们将神经科学看做是获取制造更智能的人工智能的方法。」
Amir Khosrowshahi
 Amir  是 Nervana 的首席技术官和联合创始人,一直在技术和金融领域工作,有机器学习、神经科学和分布式计算方面的研究背景。他最初做的是金融衍生品交易,曾在多家成功的科技创业公司工作。
Nervana 的硬件技术
Nervana 一直在努力将机器学习功能全力引入到芯片之中,而不是简单地打造能够在大量图形处理器上运行的软件。对于英特尔等公司来说,这种解决方案非常有吸引力。
 推出能被市场接受的新芯片已经不再是一项简单的任务了,但针对特定工作负载的专用处理器的新浪潮仍然催生出了一些新的创业故事,从这些故事里我们也看到了这一行业的风险有多大。
 当然,风险虽高,潜力却也很大。也就是说,只要一家公司能生产出在特定负载上远远超过通用处理器的芯片,并且能生产出足够的数量抵消设计和生产成本,那就能获得成功。其准备资金的起点大约在 5000 万美元左右,但这是在假设芯片需要验证、测试和配置环节以证明其已经为市场做好准备的情况下。当然,如果一家公司选择设计和生产仅以云服务或器件的方式提供的芯片,这种情况就发生改变了——能省下好几百万美元。
这些想法得到了 Naveen Rao 的响应。该公司已经将其募集到的 2800 万美元投入了在台积电(TSMC)的预计于 2017 年第 1 季度进行的 28 纳米工艺的芯片测试中。该公司有一个基于云的深度学习服务,其客户包括孟山都。这些客户可将它们的深度学习负载放到该公司的现场 TitanX GPU 集群上进行处理,这个集群堆叠了 Nervana 自家的用于加速的深度学习训练和推理的 Neon 软件库。现在,该公司的重点已经放到了通过他们简装的基于张量(tensor)的架构所可能带来的巨大的加速潜力上,这一架构将出现在即将到来的 Nervana Engine 处理器中。
后端成本和掩膜成本并不是很多人所想的那样。台积电 28 纳米的掩膜成本大约为 200 万-250 万美元。后端成本在 500 万-600 万美元之间。你用大约 1500 万美元就构建一款芯片,甚至一款复杂的芯片。当你想要大批量生产并触及一些用例时,成本才会上升。但只是拿出一款芯片并没有行业让你相信的那么昂贵。——Naveen Rao, CEO, Nervana Systems
Rao 曾在 Sun Microsystems 从事了很长时间的芯片研发工作,他说他们的性能和效率都已经达到了,深度学习的市场也正要开始爆发。当它确实开始腾飞时,GPU 可能会获得一席之地,因为一些公司已经在 GPU 方面投入了很多钱——尤其是 GPU 制造商英伟达,为了自己在未来深度学习市场的地位,该公司已经砸下了大量资金。
尽管英伟达承诺即将到来的 Pascal 架构可以被用在训练和推理的深度学习负载方面,但到底会有多少用户会采用这种新架构还很难说。而且许多人购买的都是远远更加便宜的 TitanX(尽管有人断言说 TitanX 并不支持很多用例,而且还有其它很多选择)。
Nervana 处理引擎的工作方式是怎样的呢?其中有两个比较难以解释的部件。
首先,也是最简单的原因是该公司还未透露太多关于其不同或更好方面的细节——但我们还是尽所能得到了关于其处理组件和所有重要的互连组件的细节。
第二个原因是描述起来很困难,因为深度学习专用处理器和更通用的处理器之间并没有太多类似的东西。因为其没有浮点单元,数据馈送方式和速度在不同的单元中是不同的。而且因为大量数据运动都在软件中执行,Nervana 的芯片中的数据路径和典型的 CPU 或 GPU 中的数据路径只具有很少的共同之处。
所以,让我们从已经确实知道的东西开始。尽管上图只给出一些少量的最基本的信息,但事实上这是一款基于张量的经过了极大简化的专用处理器,因此不具备其它处理器的很多功能。因为其中没有浮点单元,不能在 FLOPS(每秒浮点运算次数)上谈论其相对于 GPU 和 CPU 的表现如何,但我们可以从每秒净运算次数上描述其性能,尽管这并不是一个人们熟悉的指标。
确切地说,让我们在每秒万亿次运算(teraops)的基础上对比 Nervana 芯片和 Pascal GPU(英伟达的高端深度学习和 HPC(高性能计算)芯片,也被用在了其 DGX-1 设备中)的性能。Maxwell TitanX 卡(目前正被用在他们的进行模型训练的云中)的速度大约是 6 万亿次每秒,Rao 说。Pascal 大约是那一数字的 2 倍,约在 10-11 万亿次每秒。英伟达还内置了一个半精度模式( half-precision mode),该模式下可实现 20 万亿次每秒的速度。他说,至少基于这些从用户收集到的数字上看,Pascal 在深度学习负载这一问题上是很不错的。「在我们的基于台积电 28 纳米工艺的芯片上,我们实现了大约 55 万亿次每秒。」
这里做一个重要的说明,该芯片完全不做浮点运算。该团队将该能力称之为「flexpoint」。Rao 说其利用了神经网络的一些特性——其不需要为每一个单独的标量都采用浮点精度。简而言之,这是一个基于张量的架构,这意味着其并不非常适合一般的乘法,但其电路可以比使用通用浮点的芯片做得更致密
Nervana 芯片的真正亮眼之处是互连(interconnect),但可以想象,该公司一直对其细节讳莫如深。这就是该公司的经验丰富的硬件工程师团队(Rao 自己就曾参与过 Sun Microsystems 6 款芯片的设计)的工程技术大展神威之处。Rao 将这项互连技术描述为一种模块化架构(modular architecture ),其芯片结构可以在编程上扩展成与其它芯片的高速串行链接(high speed serial links),这让芯片之间的通信和单个芯片上各单元之间的通信看起来一样。尽管这项技术本身并不具有革命性,但他说这让该团队可以一种与在 GPU 上非常不同的方式设计软件。「在 GPU 上,芯片上和芯片外的通信具有很大的不同——必须将内存映射到 I/O,在内存不同层次结构中移动数据,这涉及到更复杂的步骤、增加延迟和防止模型的并行之类的问题。」
正如人们预料的那样,该架构是完全非相干(non-coherent)的。器中没有缓存;其中有软件管理 die 上的资源。这意味着该芯片上没有缓存一致性(cache coherency)的概念,而且因为一切都通过软件进行管理,所以芯片之间的所有数据移动都是软件驱动的——因此没有缓存一致性,而是一种从 die 上的一个功能单元传递到另一个功能单元的干净利落明确的消息传递方法。
「从本质上看,它是高速串行链接,是每个人都在使用的东西——我们使用了我们所能获得的最高端的一类。我们有 2.4 TB/s 的总带宽(高速链接 PCIe 之外)。」Rao 说,「此外,为了进行消息传递,我们可以从一个芯片的 SRAM 传递到另一个芯片的 SRAM;其中并没有复杂的内存层次。这真正就像是说:有一个矩阵,我要将其发送到另一块芯片——这和 MPI 原语(MPI primitive)不一样。这是发送和接收消息,不需要复制到内存、高速缓存缺失(cache miss)、去往其被映射的外部存储、然后发送到其它芯片。这会造成大量的延迟。这么做是为了软件能更易于编写,但使用深度学习,你知道你前面将要做的所有步骤(只要网络定义了),你知道这些反向传播步骤看起来是怎样的。」
那么问题就来了:和 Pascal 相比,Nervana 的芯片在深度学习上表现如何?
该公司目前还没有将其用到自己的云硬件中——目前还在使用 TitanX 卡进行训练,但 Rao 说在每秒净运算次数上,它们将超过 Pascal 5-6 倍。「我们知道人们现在使用 Pascal 进行深度学习,所以我们对这些数字有很好的认识。他们已经推出了 NVLink ,但却是从头开始的,我们设计了一个多芯片方案。我们的芯片有远远更高的速度,而且在芯片之间有一组专用的串行链接。我们的软件结构能让多芯片像一块单芯片一样工作。我们抛弃了负担,而不是累积到已有的内存层次结构上,我们还专门为这一问题研发了一些东西。」
当你从晶圆厂到软件上都控制着产品时,丢掉额外的负担是很容易,这都靠设计。在该公司利用其投资的研发优秀芯片的能力的核心有三个信念。
第一,价格/性能之比要能与 GPU 相抗衡;
第二,Nervana 芯片取得的超过 GPU 的进展可能最终能让已有的深度学习厂商将自己已经在 CUBA 和 GPU 硬件上的投资(包括资金和时间投资)转移到 Nervana 芯片上;
最后,他们的云会成为一个很有吸引力的测试平台(随着他们扩展到新的客户,他们还需要将其做大,尽管 Rao 说他们目前的重点只有几个大客户),能推动人们向硬件领域的投资。
事实上,虽然谷歌正在表现出其在自家的张量芯片上的成功,但这并不意味着这就是所有人的前进方向——英伟达等厂商都相信这会是一个价值数十亿美元的市场。
Arjun Bansal 在接受在线访谈时,曾表示:
「……我们可以在硬件上打败 NVIDIA。这多亏了我们团队中的一位工程师的努力,他想出了这些优化过的内核,然后一直延伸到装配水平上,然后很多其他人可以围绕它贡献他们自己的系统工程,这也是为了加速工作负荷的非纯计算部分。这些事情包括从磁盘上加载数据,并且以一种非常高效的方式完成它。所有这些都帮助我们获得了相当一些关于深度学习的速度和规模的信誉。」
 「我一直在问,我们怎样说服投资者我们有一些比 NVIDIA 更好的东西?这很有趣,因为 NVIDIA 已经采用了一种在 GPU 之上开发的方法。所以,不管他们打造怎样的板卡或芯片,你仍然必须支持显卡,而且我们看到和过去 GPU 开始在 80 年代末、90 年代初起步发展时的情况类似——你可以在 CPU 上进行图像处理,但在 GPU 上会快很多。类似地,你可以在 GPU 上进行机器学习和深度学习,但潜在地你可以在专用处理器上更快地执行它,所以,这就是我们认为我们可以做得更好的原因。很显然,为什么我们的芯片将比 GPU 更快?这方面上,我们有几个关键的技术点,而且我们将其展现给了我们的投资人——这些人都对硬件非常了解。他们马上就了解到了这里存在的技术机会。」
Naveen Rao 声称,此次与英特尔的交易并不代表该公司在获取更多资本以维持独立方面面临障碍。「融资并不是问题,那是一个相对容易的事情。但是,通过将公司出售给英特尔,我们将能够利用到我们梦寐以求的技术。」
英特尔的计划与布局
英特尔是 PC 时代计算芯片领域毫无争议的唯一霸主,而智能手机时代到来后,英特尔几乎在围绕 ARM 架构的芯片厂商的「核大战」中失去了在智能手机领域里的存在感。Hölzle 也曾说过,「对机器学习来说,GPU还是不够专精,毕竟从设计上就不是针对这种用途的。」所以而自谷歌发布自家TPU芯片之后, 英特尔也悄悄行动起来。
今年六月,在德国法兰克福举办的国际超级计算大会上,英特尔推出了一款 72 核 Xeon Phi 芯片,似乎才看到公司在深度学习的硬件市场上发力。
到目前为止,这款 Xeon Phi  「Knights Landing」芯片是英特尔最强劲、最昂贵的芯片,瞄准机器学习以及超级计算机市场(两个英伟达 GPU 颇受欢迎的市场)。英特尔也在会议上提到了在复杂机器学习程序中使用 GPU 可能遇到的问题,公司相信, Xeon Phi 可以解决这些问题。目前,公司已经将芯片用于几个世界领先的超级计算机中,比如 Stampede 2 。
英特尔副总裁 Jason Waxman 表示,向人工智能转型可能会挫伤该公司向云计算进军的努力措施。不过,他又表示,机器学习非常有必要,特别是在英特尔从一个用户控制大量连网设备到世界向一个数十亿件设备都相互连并相互对话的世界转型之际。
据《福布斯》分析,通过这次收购,英特尔就能得到一个用于深度学习的具体产品和IP,它们可被用在单独加速器上,也能与英特尔未来的技术融合起来,生产出更具竞争力、创造性的产品。
首先,英特尔需要另一种架构。
在机器学习上,GPU 的确可以出色完成任务。不过,绝大多数 GPU 也有很多其他用途,如专为处理图形图像、生产图形输出。此外,GPU 还提供高精度浮点,用于高性能计算机在金融分析、模拟和建模上的应用,而这些不需要深度学习算法。所有这些功能都会占用宝贵的芯片空间和能量。因此,理论上来说,Nervana 的方法能够实现更高的性能,或者降低这些计算密集型的工作负荷的成本(不过,到目前为止,这家公司还没有提供对他们芯片的任何性能预测)。
Nervana 还没有透露处理器的很多细节,而是忙于 NEON 软件,该软件被用来加速 Nervana Cloud 中的 GPU ,因为这款芯片要在 2017 年公开首秀,必须在此之前完成它。
但是,他们之前已经说过,Nervana Engine 包括一个固定在芯片上的开关,将这些以 3D 环面拓扑方式互连起来。这个特征将把这个引擎的规模扩大到大量的合作加速器,这种能力需要训练更复杂的深度神经网络,如卷积和循环神经网络。开发这个功能需要系统提供商或英特尔提供额外的工程量,所以它可能需要更多的时间才能实现。明年的某个时候我们就会知道更多关于他们的芯片性能如何的消息了,以及它是怎么支持像 Caffe、Torch 和 TensorFlow 这些流行的人工智能框架。
其次,有了这次收购,英特尔就不再需要大型 GPU。
谈到处理器,除了大型 GPU,对于每一种架构风格,英特尔都有一个或更多的处理器。他们有带有集成 GPU 的台式处理器,用于普通服务器的 Xeon CPU,用于高性能计算机和超级计算机多核 Xeon Phi(「Knights Landing」),以及用于 特定功能加速器的 Altera FPGA,包括深度学习的推理引擎。
有了这次收购,公司就不再需要一个重载的(heavy duty)GPU。Nervana 能覆盖 Xeon Phi、Altera FPGA  与现在人工智能的 Nervana Engine 之间的 GPU 加速空间。而且,Intel 最近推动的自动驾驶系统可能会从一个像 Nervana 这样的低功耗深度神经网络引擎中获益。
那么,英特尔会如何利用 Nervana 的技术?
既然 Nervana 团队正在建立一个独立的加速器,英特尔将会继续走这条路,至少最初的版本是这样的。但是英特尔擅长整合技术,比如把它整合到芯片或者多芯片封装中去。把 Nervana Engine IP 加到一个Xeon CPU 中,可以提供一个低成本的方法来实现加速,但之后想要缩放规模(scaling)就没那么容易了,因为这个 GPU 加速器比率会固定在1-1上。因此,英特尔或许最终会在若干形式上将 Nervana IP 产品化,也许是用于训练中强大缩放的独立产品,也许是一个或多个整合解决方案,用于推理任务中训练过的神经网络。
英特尔一直在弥补其数据中心产品线上的差距,以更好地参与到急速增长的人工智能市场中来。NVIDIA 也不会坐以待毙。NVIDIA 设的门槛很高,并已经在世界各地建立一个丰富的软件和研究机构生态系统,这些东西对于英特尔和 Nervana 来说都需要花很长时间才能做到。
人工智能的未来:巨头押注创业公司
继苹果收购机器学习创业公司 Turi 之后,英特尔宣布收购成立仅两年的深度学习创业公司 Nervana。到目前为止,大型公司收购人工智能创业公司交易已达 33 起(自 2011 年)。
英特尔、谷歌成为最活跃的人工智能创业公司投资人
吴恩达说, 人工智能会变革产业,一个接着一个。不过,我们很难获取人工智能收购狂潮的美元数额(这和单笔公司收购数额不同),因为在这些创业公司已经具备明确的规模价值之前,大型公司已经开始争抢了。买家更需要人才,而不是技术,吴恩达说,因为现在的人工智能产品需要迅速更新。
因此,很多业界高管表示(包括谷歌和 Facebook 在内的很多公司),有必要将人工智能的筹码押注到一些更年轻的公司上。「他们正在采取行动。」投资过 Nervana 的风险资本公司 Data Collective 的执行合伙人 Matt Ocko 说。对于那些管理着海量数据(图像、声音等)的公司来说,形势尤为严峻。那些不能通过收购而更进一步的公司将面临严峻的竞争压力。
瓦克斯曼承认,英特尔在人工智能和深度学习等业务方面仍表现不足,但目前这些业务正在改进。
来源:http://bi.dataguru.cn/article-9720-1.html
关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.