标签:Spark

05月11日

中小型企业大数据体系建设的核心技术选型

Tumweeg,学生时期曾为微软中国打杂并取得过相关专利,现在某海外业务社交类移动互联网公司任大数据工程师。熟悉大数据平台研发、架构,以及数据的处理和分析,熟悉Web架构和高性能/高并发/高可用系统,热爱技术交流,共同提高。 本文分享的主题是中小型企业基于大数据技术的项目实践,笔者将从大数据技术栈开始说起,并在后文分享自己在工程实践中的一些具体经验。 一、大数据...

07月28日

微博大规模机器学习框架Weiflow揭秘

模型训练只是其中耗时最短的一环。如果把机器学习流比作烹饪,那么模型训练就是最后翻炒的过程;烹饪的大部分时间实际上都花在了食材、佐料的挑选,洗菜、择菜,食材再加工(切丁、切块、过油、预热)等步骤。 在微博的机器学习流中,原始样本生成、数据处理、特征工程、训练样本生成、模型后期的测试、评估等步骤所需要投入的时间和精力,占据了整个流程的 80% 之多。 如何能够...

07月19日

Cloudera首席技术官:大数据创企,别再做底层基础平台了

作者 | 夜叶 几年前,大数据还只是新兴概念,现在数据早成行业和公司眼里的香饽饽,从底层基础平台,中间层通用技术,到上层行业应用,大数据产业链条日臻完善。 作为马云口中构建未来智能世界三个最主要要素之一,大数据自身是衍伸发挥的生产资料来源,而对数据的存储、计算又是整个大数据生态的基石,底层基础平台主要就解决这个问题。 而论及底层技术Hadoop领域,就得...

06月28日

一文读懂大数据计算框架与平台

 1.前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负...

05月30日

为异构的大数据运行环境构建数据管道

作者:Dongyao Wu Liming Zhu 等 Pipeline61框架可以用于为异构的运行环境构建数据管道。它可以重用已经部署在各个环境里的作业代码,并提供了版本控制和依赖管理来解决典型的软件工程问题。 研究人员开发了大数据处理框架,如MapReduce和Spark,用于处理分布在大规模集群里的大数据集。这些框架着实降低了开发大数据应用程序的复杂度。在实际当中,有很多的真实场景要求将...

02月16日

Yahoo开源TensorFlow On Spark

Yahoo Big ML团队成员Lee Yang、Jun Shi、Bobbie Chern和Andy Feng日前合著了一篇文章,详细介绍了他们开源的TensorFlowOnSpark的方方面面。 Yahoo开源的TensorFlowOnSpark使Google发起的TensorFlow深度学习开源框架与Apache Spark集群中的数据集兼容,一些组织为了处理大量不同类型的数据而进行维护,对他们来说无疑是个好消息。 Yahoo开源TensorFlowOnSpark采用了Apache 2.0协...

05月23日

Spark知识体系完整解读

Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用...

05月12日

一篇文看懂Hadoop

  我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一...

01月27日

MIT专家告诉你大数据的秘密

今天,我要跟大家谈谈大数据。大数据这个词其实是一些做营销的人发明的,大概是几年前的事情。然后我也非常高兴,我终于知道过去四十年自己到底在做什么,我原来是在做大数据。所以我想跟大家谈谈大数据对于我来说意味着什么,以及我认为的大数据中什么是重要的。 关于大数据,很多人说意味着三件事情,这三个单词都是以字母V开头的。 大数据的问题,第一个就是量(volume)...

12月12日

实时股票分析系统的架构与算法

【编者的话】如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易,而自己则在夏威夷的海滩上享受生活,那将是多么惬意呀。虽然股票 价格的变化受多种因素的影响,世上也没有免费的午餐,但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到“更好、更健康、更便宜的午餐”。 本文搜集并整理了一些如何实现实时股票分析系统的资料,从架构和算法两个层面给...

11月27日

世界沉醉在数据里

2015年6月9-11日,我在美国加州硅谷参加了第八届全球Hadoop技术峰会(Hadoop Summit 2015)。在短短的3天时间里我既见识到了Hortonwork, Cloudera, SAP, IBM,惠普,雅虎等25+数据服务技术提供商围绕大数据设计开发的产品,也聆听了Schlumberger(能源巨头),verizon(通信巨头),迪斯尼(娱乐巨头),Airbnb(共享经济代表企业),赛门铁克(信息安全巨头),Aetna(医疗保险巨头...

10月26日

SparkR:数据科学家的新利器

R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数据集进行分析和处理。...

10月17日

董飞:硅谷大数据的过去与未来

董飞,Coursera数据工程师。曾先后在创业公司酷迅,百度基础架构组,Amazon 云计算部门,LinkedIn担任高级工程师,负责垂直搜索,百度云计算平台研发和广告系统的架构。董飞本科毕业于南开大学,硕士毕业于杜克大学计算机系。他在知乎上分享过多个引起强烈反响的问答,其中包括 《哪些硅谷创业公司能给拜访者留下深刻印象》、 《美国大数据工程师面试攻略》、 《Coursera 上有哪些课程...

09月28日

脱离JVM? Hadoop生态圈的挣扎与演化

文|李呈祥,Hadoop攻城狮 新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从最初Nutch项目的一部分,逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目,围绕着大数据的存储,计算,分析,展示,安全等各个方面,构...

07月18日

从Hadoop到Spark的架构实践

当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖Spark Core、Spark Streaming、Spark MLlib、Spark SQL等众多领域。而作为较早关注和引入Spark的移动互联网大数据综合服务公司,TalkingData也积极地参与到国内Spark社区的各种活 动,...

07月18日

许颖:基于Hadoop的企业级大数据平台

怎么看待企业级hadoop平台市场的需求? 首先我们先看一个案例。我们服务的一个客户-某运营商采用的以Hadoop平台为核心的大数据基础平台.该运营商目前已经拥有了海量详单(语音、短信、GPRS等)、信令、账单等数据,其中个大部分都为结构化数据仅有上部分来自于互联网的非结构化数据,并且随着企业和业务的发展,这些数据还在不断增长。 该平台以hadoop和spark技术为核心实现...

07月18日

飞起来的大象-Hadoop从离线到在线

时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研究显示,到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下,各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快,顺应潮流,Hadoop生态圈也更为完善和成熟,更是划分出了子生态圈如Spark。正是在这样一个背景下,Ha...

07月17日

浅谈开源大数据平台的演变

一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分的离线存储和离线计算需...