Hortonworks副总裁谈Hadoop应用

推荐会员: 点金大数据 所属分类: 行业精选 发布时间: 2015-07-11 07:07

Hortonworks针对Hadoop的使用情况展开了一次调查,调查结果显示:Hadoop现在已经被很多大型主流组织所部署(50% 的调查对象来自于收入超过5亿美元的组织),这些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。

大部分情况下,Hadoop 并不会替代已有的数据处理系统,而是作为已有产品的补充。Hadoop 通常会与已有的系统互补,它挖掘额外的业务数据,同时也是一个更加强大的分析系统让你能够更好地洞察业务信息从而获得竞争优势。54% 的调查对象正在利用 Hadoop 捕获新型数据,同时还有 48% 的人打算这样做。主要的新型数据包括:

  • 服务日志数据,能够让 IT 部门更好地管理他们的基础设施(64% 的调查对象已经这样做了,同时还有 28% 正计划这样做)。
  • 点击流数据,能够让你更好地理解客户是如何使用应用程序的(52.3% 的调查对象已经这样做了,同时还有 37.4% 正计划这样做)。
  • 社交媒体数据,能够让你了解公众对公司的看法(36.5% 的调查对象已经这样做了,同时还有 32.5% 正计划这样做)。
  • 地理/位置数据,能够用来分析旅行模式(30.8% 的调查对象已经这样做了,同时还有 26.8% 正计划这样做)。
  • 机器数据,能够用来分析机器的使用情况(29.3% 的调查对象已经这样做了,同时还有 33.3% 正计划这样做)。

根据调查,传统数据的平均增长率大约是每年8%,而新型数据的增长率则超过了 85%,因此离开了Hadoop 几乎不可能收集并处理它们。

David McJannet

InfoQ 针对该调查,采访了 Hortonworks 公司的市场副总裁 David McJannet。

InfoQ:根据此次调查的结果,好像 Hadoop 应用的更加广泛但是深度却不够。好像越来越多的人正在开始使用 Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和对这些数据执行简单的 Hive/SQL 查询。你认为这种趋势将会继续么?

McJannet:我认为 Hadoop 在某些行业中已经应用得非常深入:对于早期的采用者而言,Hadoop 是整体数据架构的基础,同时这些公司现在也已经广泛使用 Hadoop。但是在 2013 年我们发现它开始真正地扩大,这从 Hadoop Summit 的调查报告中就可以看出来。

让我们思考一下驱动采用率迅速攀升的原因,我认为至少有 3 个明确的因素:

  1. 对 Hadoop 用例有了更好的理解。实际上这一点在调查结果中有所表现,结果显示 2 个主要推动力是:(a)基于新型数据构建的新型分析系统,(b)作为整体架构的一部分管理长期增长的数据。
  2. 技术本身的快速发展继续简化了使用,同时也为大规模推广创造了条件。Hadoop 2 在很多方面都有巨大的进步,同时它还吸收了广大社区几年来的工作。
  3. 市场上的供应商拥抱该生态系统。例如,Microsoft 所做的工作允许 Excel 用户直接连接到 Hortonworks 数据平台(HDP)上拉取数据进行分析。而更加复杂的分析通常会在 SAS 这样的工具中完成,为了将 SAS 分析工具连接到 HDP 上他们作了非常深入的工作。这使得该工具的使用变得更加简单,在很多情况下最终用户甚至根本就不知道他们正在使用 Hadoop。

InfoQ:你认为应用 Hadoop 的下一步是什么?你会如何定义像 Hortonworks 这样的公司或者供应商在该过程中的角色?

McJannet:我看到了一个与企业使用非常一致的模式:大部分用户最初采用 Hadoop 的目的是创建一个新型分析系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成功之后,数据架构团队会意识到 Hadoop 在整个数据架构中的价值,进而将推动 Hadoop 下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。对于 Hortonworks,我认为我们的角色是让 Hadoop 市场能够运行起来:

联合该生态系统中的其他组织确保开源的 Hadoop 能够持续地在开源领域发展同时为所有人服务

提供一个真正的已经经过大规模集成和测试的企业级平台,同时合并开源社区最近的创新。

确保它与用户已有的工具和技术的集成性和互操作性。这就是为什么我们会努力工作以确保 HDP 可以与来自于 HP、Microsoft、SAP、SAS、Teradata 等公司的技术进行认证的原因——事实上,现在所有的这些合作伙伴都将 HDP 作为他们产品中的一个组件进行转售。一般来说,大多数组织所依赖的供应商依赖于 Hortonworks 针对 Hadoop 研发的相关产品,这种方式能够让整个市场更快地运行和成熟。

InfoQ:尽管 Hadoop 提供了惊人的处理能力,远远超过了 SQL,但是 Hive 在 Hadoop 的使用上依然有举足轻重的地位。同时有更多的公司正在为 Hadoop 数据提供实时 SQL 查询解决方案,强调将 SQL 作为主要的 Hadoop 编程语言的声音似乎增长得更多。你认为这是一个短期现象还是一个长期趋势?

McJannet:鉴于当今世界丰富的 SQL 技能,对存储在 Hadoop 中的数据进行访问时最常用的方式之一是使用 SQL 这并不稀奇。在这一方面,Apache Hive 是到目前为止 Hadoop SQL 查询领域的一个占主导地位的工具。当然,一些希望抓住这一市场机遇的专有供应商也在 Hadoop 之上推出了一些新产品,但是总的来说 Hive 是标准同时也很有可能始终都是,特别是考虑到为了继续提升 Hive 的速度、规模和 SQL 语义 Microsoft、SAP、Hortonworks 以及其他组织在 Stinger Initiative 上所做的工作。

除了 SQL 之外,还有很多其他的方式可以访问存储在 Hadoop 中的数据,但是公平一点地说,使用 SQL/Hive 将会是最主要的途径。例如,Hive 往往是所有基于 Hadoop 的 BI 工具所使用的接口。但是对于更加复杂的用例,我们确实会看到广泛使用的技术,例如 Pig(脚本查询),同时还有更加普遍的高端工具,它们所使用的接口对用户而言并不可见,例如R和 SAS。

随着时间的发展,最常用的接口很有可能是一个打包的应用程序(SAS、Microstrategy、Excel、业务对象、Platfora 等),最终用户根本就不需要知道底层用了什么。

InfoQ:你认为 Hadoop 将会被用于构建主流企业应用程序么?大约什么时候我们才能看到这些应用程序?

McJannet:毫无疑问!历史告诉我们 Web 公司是采用这些新型技术(例如现在正在发展中的 Hadoop)的先锋。这些公司已经基于 Hadoop 构建他们的主流应用程序几年了,现在我们看到主流的企业也在遵循同样的路径。

也是出于这方面的原因,我们才有了这样一个焦点:与人们已经拥有的开发技能集成。例证:.NET 开发者?.NET SDK for Hadoop 是基于开源 HDP 的。Java 开发者?Java Spring(构建 Java 应用的主要框架)的 HDP 认证将会是这个迁移的一个强力推动者。

什么时候?做这种类型的预测一直都非常难,但是我认为新生技术的转变通常会需要比预期更长的时间,同时意义也要比预期更加深远。Hadoop 技术的使用到现在已经进行了好几年,现在才真正地开始固定下来,因为事实证明它能够带来客户群的增长。作为一个供应商,我们认为我们角色中的一个非常重要的方面是:关注于技术和技能的集成从而以最及时最合理的方式推动它的发展。

来源:http://www.infoq.com/cn/news/2013/12/HadoopUsage

分享&收藏
关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。