拍砖闲话大数据

推荐会员: dsd2009 所属分类: 行业精选 发布时间: 2015-08-23 00:27

我们都在说大数据时代来临,信息和数据大爆炸。从2013年初开始,对于大数据爆发的焦虑感,紧迫感,不由自主地被卷入的甚至无力的感觉,驱动众多行业、企业和团体去关注和开始接触和了解大数据,自觉或不自觉的,主动或不得已地去融入这波洪流。但是,真的说到大数据,我们身边到底有多少数据量,它们都分布在哪些行业,哪些数据是目前可用的,哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?

819

可能看到的版图依旧模糊。因此,我们怀抱很好的希望,以第一个吃螃蟹并期待来自行业的矫正和拍砖的态度,首先尝试对于国内各个领域,行业以及机构的数据拥有情况,使用情况以及未来路径做一个粗犷地调研、梳理和判断,对大数据时代我国各个领域数据资产的拥有和使用情况,也就是我们数据资产的家底做个盘点,也对各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来做个简单判断。事实上,大数据之题无疑繁若星辰,然而只有在相对完整的视图下,繁星若尘,我们才可得以一窥天机。

闲话少叙,现在开始算账。

从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1个EB,存储总量而IDC曾经发布的预测表明在未来的3-4年,中国存储总容量可能达到18个EB.从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,且上升态势明显。

鉴于存储和服务器的紧密相关,我们从已经获得的资料可以知道,目前全球运行的服务器总量超过5000万台,美国国内运行的服务器总体容量接近1000万台。从各种市场公开数据来看,2013年中国内地服务器销售总数接近为100万台。大体估算,截止到2013年底,中国内地整体在运行的服务器总数量在300万台以上。

从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。这些被存储数据的大体分布为:媒体/互联网占据现有容量的1/3,政府部门/电信企业占据1/3,其他的金融、教育、制造、服务业各部分占据剩余1/3数据量。

公开数据显示,互联网搜索巨头百度2013年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。

在目前被广泛引用的IDC和EMC联合发布的“2020年的数字宇宙”报告预测到2020年,全球数字宇宙将会膨胀到40000EB,均摊每个人身上是5200GB以上,这个量将会如何被有效存储和应用,我们眼下还很难想象。然而我们看到该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。事实上,根据上述调查结论和服务器容量调查,我们也能做出个相对合理的推断:目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记并用于分析的数据更是不到10%.

作为全球人口和计算设备保有量的大国,我国每年所能产生的数据量也极为庞大,有数据说2014年甚至可能达到ZB级别,但是真正被有效存储下来的数据仅仅是其中极微少部分,中国保存下来数据占全球数据的比例大约在10%左右,也就是上面说的5EB.这些数据中,目前已被标记并用于分析的数据仅达到500PB左右,也是接近10%的一个比例。

伴随着云计算迅速普及和各行业,各企业和部门对于数据资产保存和利用意识的增强,以及通过互联网、大数据对产业进行变革的意愿,未来2-3年一定会有越来越多的行业、大企业步入到PB、百PB、甚至EB级别数据俱乐部,未来3-3年中国的数据总量也将呈翻倍上升态势,我们预测2015年中国就可能突破10EB数据保有量,被标签和分析利用数据量也将上升到EB级别,这些数据增长中互联网、政务、医疗、教育、安全等行业和领域所做贡献最大,而相对传统的物流、生产制造、甚至农业等领域数据拥有量的增长将更加明显

说人类步入了信息时代,有个事情是非常重要的,就是物理世界的信息化,包括信息基础设施建设和数字化,紧接着就是如何将数字化的东西(数据)进行储存、传输、交换以及使用,这一脉络伴随着移动互联网,云计算、大数据以及各种各样智能终端的出现,显得也越来越清晰。很多人都已认可,我们可能来到一个工业革命之后,一个比我们想象地更加重要的变革时代,我们把它命名为产业互联网的时代。毕竟这一切都是互联网出现之后才发生的,无论是云,通过网络随需调用的计算资源;大数据,关联的可分析在线数据;还是各种智能终端,都要依托互联网。同时这些工具又帮助互联网从消费互联网进化到改变各个行业的生产性互联网,其中,数据成为产业互联网重要的生产要素。当然,数据成为生产要素还有个前提,就是获取数据,并有效的梳理与标签。

2013 年中国产生的数据总量超过0.8ZB(相当于8亿TB),2 倍于2012 年,相当于2009 年全球的数据总量。预计到2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB.(来源,ZDNET《数据中心2013:硬件重构与软件定义》年度技术报告)

上一回中,我们通过服务器和数据中心数量,以及各行业数据梳理,大致判断国内目前一年产生、存储的数据总量以及大致分布,在这一回中,我们尝试将所收集的资料汇总起来,进一步分析下各个行业、领域的数据总量和分布情况,以供参照。

大数据

1、BAT代表的互联网公司

(百度)现在的数据总量接近一千个PB左右,网页的数量大概是几千亿的网页,从大量的网页里面我们拿出几百亿来建索引,对于大量的网页,我们每年更新几十亿左右,每天会享受用户的查询也会在几十亿左右,我们查询的也是几百PB.(百度云计算首席架构师林仕鼎2013)

根据公开的信息,作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。计划投资47.08亿元的百度云计算(阳泉)中心已于2012年8月奠基,该项目预计2015年完工。建成后的百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量。

百度的数据量大大家可能不会怀疑,甚至说中国拥有最大数据量的公司,大家可能也不会怀疑。因为我们是提供搜索服务,我们要把全中国的中文网页全部搜索起来,放到我们中心。全部的网页多大呢?目前估计是三千亿左右,三千亿个中文网页要把它全部抓过来,放到我们的数据中心。这个数据大概是10-50个PB,这个范围很大,因为这个情况是每隔一小时时间就会发生很大变化。再一个想不到的是日志,百度的系统里面每天有很多大量的日志,这些日志是作为我们分析处理用户行为习惯,包括数据恢复和灾难备份很重要的基础,这个数据量是最大的,目前能达到100个PB以上。数据仓库,数据仓库是经过清洗以后的日志信息,这个是结构化的。再一个大家知道,百度上有百度推广,俗话叫广告。和传统广告一样,除了有客户的信息之外,还有广告本身,这部分数据比较小,1TB,但是这部分数据对它处理的要求非常高,首先是要高度的一致性。最后一个是UGC,用户产生的内容,大家都知道百度有贴吧,有百度知道,百度文库,这些内容是广大互联网网民自己产生,自己上传,大家一起分享的数据,这部分数据目前达到1PB,而且这里的数据大量是用户上传的视频、图片等等多媒体的数据。(百度技术委员会理事长陈尚义2012)

拥有近5亿注册用户,2013年有篇报道指出阿里巴巴掌握的总体数据量为30P.行业内部人士预计阿里集团大概有30万台左右服务器,目前保存的数据量应该在近百PB(对新浪微博的投资,对高德等的收购等行为,会进一步提高阿里巴巴可接触的数据量)。2012年7月10日,阿里集团就宣布设立首席数据官岗位(CDO),负责推进“数据分享平台”战略。阿里巴巴也一直在尝试对数据进行加工。从早期的“淘宝指数”,到为店铺经营提供运营管理数据分析的“数据魔方”,到将“云”理念与大数据结合的“聚石塔”,再到以数据分析为基石的“阿里金融”,阿里在大数据开发方面一直走在业界前沿。

从淘宝创立之时,阿里巴巴就开始搜集平台上的数据,直至支付宝、聚划算、一淘等平台,随着业务的爆发式增长,阿里诸平台上的数据成倍增加,汇集成海。这些数据包括交易数据、用户浏览和点击网页数据、购物数据等等。阿里集团首席战略官曾鸣预测,“阿里本质上,未来会是一家数据运营公司。”前者,是如何将大数据用好,而后者则意味着,如何让大数据更好用。

在2013年大数据大会上,腾讯公司数据平台助理总经理蒋杰表示,在国内互联网体系中,腾讯拥有的数据覆盖多个领域,总存储数据量经压缩处理以后在100PB左右。

腾讯QQ目前拥有8亿用户,4亿移动用户,在数据仓库存储的数据量单机群数量已达到4400台,总存储数据量经压缩处理以后在100PB左右,并且这一数据还在以日新增200TB到300TB,月增加10%的数据量不断增长,现在正在为1000个PB做准备。亚洲最大的数据承载中心,腾讯天津研发与数据存储中心正在滨海新区紧张地建设中,腾讯天津中心项目总建筑面积9.33万平方米,预计服务器托管能力超过10万台。

其他像360、一些地图、社交、影视娱乐类互联网公司,也拥有PB量级数据储备。如果按某媒体所说的BAT中阿里巴巴拥有90%以上的电商数据,百度以70%以上的搜索市场份额坐拥庞大的搜索数据,腾讯拥有大量社交、游戏等领域积累的文本、音频、视频和关系类数据,这三大巨头拥有的数据量肯定是在EB级别以上,全部互联网公司拥有的数据量应该超过1.5EB,达到接近2EB的体量。

2、电信、金融、保险、电力、石化系统

2012年12月13日,在由云基地主办的“中关村大数据日”活动上,中国联通研究院副院长黄文良介绍,“今年,中国联通成功将大数据和Hadoop技术引入到”移动通信用户上网记录集中查询与分析支撑系统“.截止到目前,我们已经部署了4.5PB的存储空间。除了这些数据,运营商还具有用户通话、信息、地理位置等信息,目前主要运营商拥有的数据数量应该都在10PB以上,总体年度用户数据增长约数十个PB.

中国银联公开数据显示,全国仅”银联“银行卡发行量目前接近40亿张,每天有近600亿交易通过银联的银行卡交易,尽管单张卡片数据量不大,但汇总起来,这依旧是一个非常庞大的数据量。如果再加上开户信息数据,银行网点和在线交易的各种数据,以及金融系统自身运营的数据,目前国内银行和金融系统每年产生的数据也能达到数十PB,保险系统生成的数据量也会接近PB级别。

今天,国家电网建成世界最大电能计量自动化系统。截至2013年年底,累计安装智能电能表1.82亿只,实现采集1.91亿户,采集覆盖率56%,自动抄表核算率超过97%.智能电网可以产生巨大的数据量。比如国网信通在北京五个小区, 353个采集点,采集1.2万个参数,包括频率、电压、电流等, 15分钟采集一次,一天就能产生34GB.仅国家电网,全国能够采集获得的数据总量也是上10个PB级别的,能够保存下来的数据量也能达到近10PB,同样,据内部资料分析,石油化工、智能水表等领域每年产生和保存下来的数据量也达到数十PB级别。

3、公共安全、医疗、交通领域

随着平安城市、智慧城市等工程的推进,监控摄像头已经遍布大街小巷,安防监控对高清化、智能化、网络化、数字化的要求越来越高,数据量自然也不断地迅速增加。据说,1080P高清网络摄像机 ,速度能够达到每秒60帧,这样的摄像机一个月产生的视频文件就达1.8T.北京目前用于视频监控的摄像头有50万个,一个摄像头一个小时的数据量就是几G,每天北京市的视频采集数据量在3PB左右,而一个中等城市每年视频监控产生的数据在300PB左右。尽管出于成本考虑,很多监控视频具备定期清除循环的特点,但整个视频监控每年能够保存下来的数据,每年也在数百PB以上。

与此相关的交通方面,航班往返一次能产生数据就达到TB级别,还有列车、水陆路运输产生的各种数据视频、文本类数据,每年也在百PB级别,能够保存下来的,也能达到数十PB.

北京市交通运行监测调度中心建立了包含”交通数据中心、监测预警中心、运行协调中心、综合交通信息发布中心“在内的四大中心,实现运行监测、协调联动、决策支持与信息服务等功能,并为政府决策、行业监管、企业运营、百姓出行等提供服务支持。具体来看,TOCC已整合接入行业内外27个应用系统、6000多项静动态数据、6万多路视频,目前静动态数据存储达到20T,每天数据增量达30G左右。(北京市交通运行监测调度中心(TOCC)副主任张可)

上海申康医院发展中心牵头完成的”医联工程“项目将大数据应用于健康医疗产业,该项目覆盖38家市级三甲医院,实现了市-区各级医院间大规模临床信息实时共享以及健康档案动态更新,高效存储检索解决了海量影像信息高效存储、传输和展示的难题,建立了PB级医学影像档案库。有媒体报道说:”中国一线的大型城市,仅仅健康档案的数据,一年就有5PB之多。“医疗健康卫生领域无疑是一个很大数据来源,包括疾病监控等方面的数据。比如,医疗数据一个大脑的CT扫描图要让它分辨率很高,微米的数据量产生是4.5TB的数据。例如像广州中山大学医院2013年数据是1000个TB.有统计表明,中国一个中等城市(一千万人口)50年所积累的医疗数量可达到10PB.如此推算,整个医疗卫生行业,一年能够保存下来的数据就可以达到数百PB.

”大型医院每年的数据增量在数十TB,仅医学影像每年可达20TB.“ 一个CT图像含有大约150MB的数据容量,而一个基因组序列文件大小约为750MB,一个标准的病理图与前两者相比则大得多,文件大小接近5GB.如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院或一个中等规模制药企业就可以生成和累积达数个TB甚至数个PB级的结构化和非结构化数据。(某大型三甲医院计算机室主任)

4、气象、教育、地理、政务等

目前,整个中国气象局所保存的数据在4~5PB左右,每年大概增加数百个TB左右。包含了地面观测、卫星、雷达和数据预报产品等几大类的观测数据。各种地图和地理位置信息应该每年在数十PB,但此次信息容易和互联网公司以及交通运输、物流行业产生信息重叠,单独占有和保存的此类信息应该在PB级别。

除了常规的地面观测站之外,以气象卫星和多普勒天气雷达为代表的遥感遥测业务领域近三十年来取得飞速发展,这些领域一方面每天产生着数以TB级的观测数据。(国家气象信息中心副总工程师沈文海)

据悉,一个智慧城市的数据一个季度就是200PB之多。2013年,北京市政务数据资源网试运行一年来,已上线公布了400余个数据包,涵盖旅游、教育、交通、医疗等门类,累计访问量超过600万次,地理空间数据累计下载量4800余次。有调查显示,未来1-2年中国政府部门的数据规模超过100TB的将超过一半,达到53.3%,有将近三成(33.3%)的用户数据规模是10-50TB.政府部门的数据多数还是集中在结构化数据上,对于非结构化数据的拥有量并没有想象的大。整个政府部门产生的数据,排除上述提到的几个主要部分,也能达到PB级别。

目前,绝大多数中央部委和省级政府部门的核心业务都有数据库支撑,核心业务数据库覆盖率超过80%.公安部建成了覆盖13亿人口的国家人口数据库。国家工商总局建成了企业法人数据库,民政部和中央编制办公室初步建成了社会团体和事业单位信息库,全国四级国土资源主管部门积累了近6000TB的数据,国家统计局建成了统计信息库,国家发展和改革委牵头的自然资源和空间地理基础信息库正在加紧建设。此外,金融、税务、质检、社保、教育等领域也都建成了一批信息库。

5、其他,商业销售、制造业、农业、物流和流通等领域

随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前来说,目前这些行业数据量还处于积累期,整个体量都不算大,多的达到PB级别,基本也就是百TB甚至数十TB级别。另外,中国国家图书馆藏书是2631万册,这相当于41TB.影视娱乐、出版传媒方面也有一定量的数据积累,还有教育方面目前也在产生着大量的数据,这些都是未来可以挖掘的方向。

制造业的存储数据一般被分为以下几种类型:其一,产品设计数据,这类数据的典型特点是以文件为主,非结构化,共享要求比较高,保存时间也比较长;其二,企业生产环节的业务数据,其特点是以数据库等结构化数据为主,这些数据的重要性不言而喻,它们不仅表现企业目前运行的状况,而且为企业进一步发展决策提供有价值的分析;其三,生产监控数据,其特点是数据量非常大,对存储空间以及I/O吞吐要求高。制造企业中,企业对数据的记录多停留于两种形态:1、传统的纸笔记录;2、Excel电子表格记录。这些操作起来看似简单的数据管理方式,在浪费人力物力的同时,还为企业生产及质量监控埋下了巨大的隐患。而真正挖掘数据背后的价值,更是无从谈起。

最后,我们再从IDC使用行业分布看一看,互联网客户仍旧是主要快速增长的客户群体,占到40%左右,电信、生产制造行业也属于使用比较多的,政府、教育行业增长较快,所占比例分别为8.7%和7.8%.数据存储需求方面,据IDC预测,存储市场将继续表现出良好的增长势头。在未来五年,存储数据容量将达到15864PB(另一数据是18EB),其中尤以政府、医疗、教育等行业增长迅速,所占份额最重。

记得上大学的时候,英语老师介绍他最喜欢的两本书,就是《红楼梦》和《宽容》。前者不用必多说了,后者讲述的是什么样的故事呢?事实上它从一个山谷居民如何突破传统,向外寻路的经历,讲诉了一部人类思想和社会进化的历史,是一部关于勇气、坚持和宽容智慧的故事。

房龙从人文主义的立场出发,探寻千百年来人类精神上“不宽容”的根由。历史上由于信仰、道德、风俗等的不同,人类形成了大大小小的集团,每个集团总是居住在壁垒森严 的城堡里,用偏见和固执这个坚固的屏障抵御外界和外来的影响。而这种不宽容来自于对人类生存的恐惧。20世纪20年代的房龙乐观地认为宽容的实现是可能的,在知识和理性统治的时代,人类战胜了自己的恐惧,宽容便会大行其道了。(来自百度问答)

《不列颠百科全书》指出:宽容即允许别人自由行动或判断;耐心而毫无偏见地容忍与自己的观点或公认的观点不一致的意见。 “总有一天,宽容将会成为法则。”房龙在他的书中这样写道。昨日在朋友圈看到“美国产女”事件后,此前众多柴静的支持者,在愤愤地竭力批判,从人品到事业进行全面否定。中国人从来就不缺乏走极端的传统,这也是大航海和工业革命在中国刚冒了个头就被消灭的原因。非黑即白,无事就要生非。

正如每一个时代开创,都会经历冰与火之歌一样,航海伴随波澜,成功伴随失败,越是伟大的事业越可能经历波折的过程。2014年,看起来依旧红火的大数据,智能终端,互联网金融,在医疗健康、社交金融、商务旅游、公共安全等众多领域开疆辟土,随着大数据对各个行业影响的深入,以及各种实践的进行,当然是有成功也有不那么成功的,甚至目前还难以看清楚未来的,现在已经能够看到的,媒体和微信群里群外对大数据虚火,负面效应以及成本、未来的质疑开始上升,火热之中夹杂冰冷,拥护和反对,或者犹疑两端者各说各话,甚至每一天评论的口风都在改变。

每一次大的变革都会有着相似的历史背景,除了社会、技术等条件,不管文艺复兴,大航海,还是工业革命,都会有现实的需求,坚定地支持派,以及相对温和的环境,比如明朝郑和下西洋到航海事业的湮灭,比如意大利文艺复兴时期的佛罗伦萨,美第奇家族的包容和支持,才有得发明技术、雕塑绘画、金融工商各个行业的发达,才养育出像达芬奇这样的大发明家和艺术家,让佛罗伦萨这座城市和所有人类至今受益。

同样,正如工业革命蒸汽机战胜马车,也是在度过冰与火阶段,经历对机器的总总质疑和反抗后,从交通、通讯、制造等显而易见的领域,真正开始向多个行业和领域跨界,蔓延,改造和发展进化。今天,庞大的数据量涌入某一行业或企业时,必然会产生很多后果,比如传统管理模式、架构和管理能力的问题,比如信息投入开支增加和驾驭数据的人才缺乏的问题,比如无能力或无法迅速找到所需的信息而失去业务或市场,在制定重要决策时甚至因为信息过载出现延迟甚至失误,还有数据获取、标签、交易以及安全等种种问题。互联网改造信息传递、销售方式趋势是明显的,对社交、金融、娱乐业改造今天也都能够看到,制造、生产以及食品、农业等传统行业呢? 也一样会面对这个时代,如何在新的生态中调整、进化这样的大问题。

怎么能够用好产业互联网时代大数据、云计算这些工具解决行业传统沉淀的问题,学会这个时代的思维和解决问题的方式,进行资源重组和寻找到未来之路?跨界和创新是目前横在各行个样,各个领域面前的问题,从生产、制造到社会管理,对于这样的概念的探讨已经没有意义。正如《宽容》一书中所揭示的,突破传统的勇气,创新探索的坚持,才是目前珍贵的。而且从历史来说,我们将每个行业、领域看成一个国家或民族,在动荡变革的年代,你不创新改革和强大起来,总会有别的国家和民族改革创新强大起来;你不一心想着跨界,不代表别人也愿意待在自己的一亩三分地。

的确,对于很多尤其是传统行业,本身的积累还是很重要的,比如像医疗、制造这样的行业,然而这种积累叠加新技术能力可能就是新的生产力或者生产方式;如果仅抱着传统方式或经验不防,这种积累的界限也有可能被技术抹平、绕过或者突破。正如我在很多农产品经营、农村金融以及商业生产、制造企业群里所看到的,这些行业在新的技术,互联网和大数据带来的变化面前,更多是新奇、羡慕,试图靠近又竭力抵抗,甚至有些行业抵触的思想还在占据主流,对于少数先行者也是观望,恶意的甚至期盼能够面对他们的尸骸欢呼,这多么像《宽容》中那个由老人控制的封闭的,死气沉沉的山谷啊。

新鲜的空气已经吹了进来,而且已经形成一股大的风潮。这个时代不缺乏叶公好龙的人,也不需要真正愚公移山。大风起兮,需要的只是顺着风势学会放手飞翔。在产业互联网面前,没有那个行业能够独立之外封闭生长,再坚固的壁垒最终可能证明也就是马奇诺防线,最好的是放下沉重的传统的包袱,探索和时代融合的向外生长。

在《宽容》一书中,房龙把偶像拉下神坛,却警告人们千万不要树立新的偶像。对僵化的宽容就是对未来的不宽容,这也正符合我们时代的特征:思想不死,创新不断。在这个时代面前,以前认为最僵化的,最稳固的,可能是变化最彻底的,比如医疗,比如银行,比如教育,这场大风已经吹起来了。

来源:中云网 http://www.china-cloud.com/yunzixun/yunjisuanxinwen/20140219_23235.html

关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.