标签:大数据架构

10月09日

PB级海量数据服务平台架构设计实践

作者:Yanjun 基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论: 实践背景 该数据服务平台架构设计之初,实践的背景可以从三个维度来进行说明:当前现状、业务需求、架构需求,分别如下所示: 当前现状 收集了当前已有数据、分工、团...

06月28日

一文读懂大数据计算框架与平台

 1.前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负...

10月17日

大数据应用从小做起?谈微服务和大数据架构

这几年微服务成为研发设计热点,本文从应用角度谈下微服务化的大数据系统架构。Netflix公司的Adrian Cockcroft将微服务称为“细化SOA”,并认为这是一套具备开创意义的新型架构,诸如谷歌, 亚马逊, Facebook,百度,京东,携程等互联网公司都在采用微服务理念进行产品的设计、研发和部署。首先我们看看什么叫微服务,敏捷之父Martin Fowler在他的《Micro services》一文中给出了如下定...

08月13日

IBM杨晓洋:金融大数据架构概述与应用

【导读】本文选自杨晓洋于2016年7月7日在清华大学经管学院伟伦楼所做的《金融大数据架构概述与应用》的演讲。他在介绍IBM眼中的几个大趋势的同时也讲了一些大数据基础架构的内容,从技术问题和实际需求出发,采用多个案例说明了构建金融大数据架构的具体细节和重点问题,以及处理大数据时候要做这些考虑的原因。 IBM分析事业部 IBM分析事业部是在过去一两年间逐步成型的,成立后...

06月27日

Tensorflow架构

TensorFlow,以下简称TF,是Google去年发布的机器学习平台,发布以后由于其速度快,扩展性好,推广速度还是蛮快的。江湖上流传着Google的大战略,Android占领了移动端,TF占领神经网络提供AI服务,未来的趋势恰好是语音图像以及AI的时代,而Google IO上发布的Gbot似乎正是这一交叉领域的初步尝试。 TF的特点之一就是可以支持很多种设备,大到GPU、CPU,小到手机平板,五花八门的设...

05月12日

一篇文看懂Hadoop

  我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一...

02月24日

一个母婴电商网站的大数据平台及机器学习实践

母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的一些问题,几个月以后,随着宝宝的落地,就会准备一些纸尿裤和奶粉,而且随着宝宝的长大,纸尿裤和奶粉的类型也会变化。第三个是移动化,一般有90%的成...

10月26日

企业大数据的认识与应用

前言 笔者2005年开始接触大数据相关工作,那个时候还没有大数据的概念,甚至商业智能(BI)、商业分析(BA)的概念还没有,那个时候偶尔能听到有人在做数据仓库相关工作。05年开始跟导师一起做项目,研究的课题就是“反垃圾邮件”,主要运用文本挖掘技术实现垃圾邮件的智能识别,算是入了大数据的门儿,后来参加工作也都是在做BI、大数据相关工作,10余年间不能说有多少成功经验,至少...

10月17日

大数据架构及行业大数据应用

我今天跟大家分享些我们总结的底层数据处理技术的发展趋势和正在经历的巨大变革。 这个领域过去5年发展很快、热度很高,目前还在起步阶段。我今天是来学习的,讲的内容更多的是抛砖引玉,感谢大家一起讨论并指正! 先讲讲数据,以及大数据对数据处理技术的压力,然后分析为什么这几年数据处理技术上的创新很多。 1.-数据价值的发现与使用 先不说什么是大数据,这个争议很多...

10月14日

深入Hbase架构

前记 公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译、半原创吧。 HBase架构组成 HBase采用Master/Slave架构搭建集群,它隶属于H...

07月18日

从Hadoop到Spark的架构实践

当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖Spark Core、Spark Streaming、Spark MLlib、Spark SQL等众多领域。而作为较早关注和引入Spark的移动互联网大数据综合服务公司,TalkingData也积极地参与到国内Spark社区的各种活 动,...

07月12日

后Hadoop时代的大数据架构

  提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给大家有个铺垫,简单讲一些相关开源组件。 背...