标签:Hadoop

05月11日

中小型企业大数据体系建设的核心技术选型

Tumweeg,学生时期曾为微软中国打杂并取得过相关专利,现在某海外业务社交类移动互联网公司任大数据工程师。熟悉大数据平台研发、架构,以及数据的处理和分析,熟悉Web架构和高性能/高并发/高可用系统,热爱技术交流,共同提高。 本文分享的主题是中小型企业基于大数据技术的项目实践,笔者将从大数据技术栈开始说起,并在后文分享自己在工程实践中的一些具体经验。 一、大数据...

07月19日

Cloudera首席技术官:大数据创企,别再做底层基础平台了

作者 | 夜叶 几年前,大数据还只是新兴概念,现在数据早成行业和公司眼里的香饽饽,从底层基础平台,中间层通用技术,到上层行业应用,大数据产业链条日臻完善。 作为马云口中构建未来智能世界三个最主要要素之一,大数据自身是衍伸发挥的生产资料来源,而对数据的存储、计算又是整个大数据生态的基石,底层基础平台主要就解决这个问题。 而论及底层技术Hadoop领域,就得...

06月28日

一文读懂大数据计算框架与平台

 1.前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负...

05月30日

为异构的大数据运行环境构建数据管道

作者:Dongyao Wu Liming Zhu 等 Pipeline61框架可以用于为异构的运行环境构建数据管道。它可以重用已经部署在各个环境里的作业代码,并提供了版本控制和依赖管理来解决典型的软件工程问题。 研究人员开发了大数据处理框架,如MapReduce和Spark,用于处理分布在大规模集群里的大数据集。这些框架着实降低了开发大数据应用程序的复杂度。在实际当中,有很多的真实场景要求将...

02月07日

魅族大数据上云之路

背景介绍以及总体规划 首先我先介绍一下魅族大数据上云的背景,即我们为什么要上云? 在开始之前我们默认今天参与直播的各位同学对 Hadoop相关技术和Docker都有一定的了解,另外以下提到Hadoop是泛指目前魅族大数据使用的Hadoop生态圈技术,资源除特别说明则泛指存储资源、计算资源和网络资源的总和。 我们先来看一下魅族大数据在没有上云的时候所遇到的主要问题有以下几...

07月20日

如何在Hadoop 2.0上实现深度学习?

摘要: 位于波士顿的数据科学团队正在利用前沿的工具和算法,通过对用户数据的分析来优化业务行为。 数据科学很大程度上依赖机器算法,它能帮助我们发现数据的特征。要想洞察互联网般规模的数据还是很有挑战的,因此能够大 ... 位于波士顿的数据科学团队正在利用前沿的工具和算法,通过对用户数据的分析来优化业务行为。 数据科学很大程度上依赖机器算法,它能帮助...

05月23日

Spark知识体系完整解读

Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用...

05月12日

如何把数据变成产品?

未来属于那些知道如何把数据变成产品的企业和个人。     --麦克.罗克德斯(Mike Loukides) 据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据是下一个Intel Inside”。但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术...

05月12日

一篇文看懂Hadoop

  我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一...

05月03日

大数据深度解构与思考

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。 我希望有些不一样,...

04月19日

百度如何利用Apache Kylin处理大数据多维分析

本文将以实践经验具体分析Apache Kylin在百度地图的应用,并给项目实践实例。 1. 前言 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。 对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。Apache Kylin在2014年11...

01月27日

MIT专家告诉你大数据的秘密

今天,我要跟大家谈谈大数据。大数据这个词其实是一些做营销的人发明的,大概是几年前的事情。然后我也非常高兴,我终于知道过去四十年自己到底在做什么,我原来是在做大数据。所以我想跟大家谈谈大数据对于我来说意味着什么,以及我认为的大数据中什么是重要的。 关于大数据,很多人说意味着三件事情,这三个单词都是以字母V开头的。 大数据的问题,第一个就是量(volume)...

01月14日

酷狗音乐的大数据平台重构

本文是酷狗音乐的架构师王劲对酷狗大数据架构重构的总结。酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。 眨眼就是新的一年了,时间过的真快,趁这段时间一直在写总结的机会,也总结下上一年的工作经验,避免重复踩坑。酷狗...

12月12日

实时股票分析系统的架构与算法

【编者的话】如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易,而自己则在夏威夷的海滩上享受生活,那将是多么惬意呀。虽然股票 价格的变化受多种因素的影响,世上也没有免费的午餐,但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到“更好、更健康、更便宜的午餐”。 本文搜集并整理了一些如何实现实时股票分析系统的资料,从架构和算法两个层面给...

12月06日

用Hadoop构建电影推荐系统

Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据...

11月27日

世界沉醉在数据里

2015年6月9-11日,我在美国加州硅谷参加了第八届全球Hadoop技术峰会(Hadoop Summit 2015)。在短短的3天时间里我既见识到了Hortonwork, Cloudera, SAP, IBM,惠普,雅虎等25+数据服务技术提供商围绕大数据设计开发的产品,也聆听了Schlumberger(能源巨头),verizon(通信巨头),迪斯尼(娱乐巨头),Airbnb(共享经济代表企业),赛门铁克(信息安全巨头),Aetna(医疗保险巨头...

10月26日

SparkR:数据科学家的新利器

R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数据集进行分析和处理。...

10月17日

大数据架构及行业大数据应用

我今天跟大家分享些我们总结的底层数据处理技术的发展趋势和正在经历的巨大变革。 这个领域过去5年发展很快、热度很高,目前还在起步阶段。我今天是来学习的,讲的内容更多的是抛砖引玉,感谢大家一起讨论并指正! 先讲讲数据,以及大数据对数据处理技术的压力,然后分析为什么这几年数据处理技术上的创新很多。 1.-数据价值的发现与使用 先不说什么是大数据,这个争议很多...