大数据与区块链

推荐会员: goodway 所属分类: 行业精选 发布时间: 2017-03-14 19:56

大数据和区块链两者之间有个共同的关键词:分布式,代表了一种从技术权威垄断到去中心化的转变。

分布式存储:HDFS vs. 区块

大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,能够弹性扩张存储容量。谷歌的GFS和Hadoop的HDFS奠定了大数据存储技术的基础。另外,大数据对存储技术提出的另一个挑战是多种数据格式的适应能力,因此现在大数据底层的存储层不只是HDFS,还有HBase和Kudu等存储架构。

区块链,是比特币的底层技术架构,它在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。从这一点来说,区块链技术也是一种特定的数据库技术。由于去中心化数据库在安全、便捷方面的特性,很多业内人士看好其发展,认为它是对现有互联网技术的升级与补充。

分布式计算:MapReduce vs. 共识机制

大数据的分析挖掘是数据密集型计算,需要巨大的分布式计算能力。节点管理、任务调度、容错和高可靠性是关键技术。Google和Hadoop的MapReduce是这种分布式计算技术的代表,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。现在,除了批计算,大数据还包括了流计算、图计算、实时计算、交互查询等计算框架。

区块链的共识机制,就是所有分布式节之间怎么达成共识,通过算法来生成和更新数据,去认定一个记录的有效性,这既是认定的手段,也是防止篡改的手段。区块链主要包括四种不同的共识机制,适用于不同的应用场景,在效率和安全性之间取得平衡。以比特币为例,采用的是“工作量证明”(Proof Of Work,简称POW),只有在控制了全网超过51%的记账节点的情况下,才有可能伪造出一条不存在的记录。

IT技术发展的分分合合

和人类社会一样,IT技术发展的也呈现出“合久必分,分久必合”,即集中与分布的螺旋式上升。

计算机诞生初期,仅能实现一对一的使用,是集中化的。为了使得一台大型机能够同时为多个客户提供服务,IBM公司引入了虚拟化的设计思想,使得多个客户在同时使用同一台大型机时,就好像将其分割成了多个小型化的虚拟主机,是时分复用的集中式计算。

进入小型机和PC时代,回归了一对一的使用,不过设备已经分散到了千家万户。进入互联网时代,C/S模型的客户端和服务器是分布式计算,只不过服务器之间还是分散的。

进入云计算时代,计算能力又被统一管控起来,在客户端和服务器的分布式计算基础之上,服务器之间也开始了分布式协同工作。因为协同,所以也可以认为它们在整体上是一种集中式的计算服务。

进入大数据时代,云计算成为大数据基础设施,也使得大数据的核心思想和云计算一脉相承。MapReduce将任务分解进行分布式计算,然后将结果合并从而实现了信息的整合分析。

区块链则是纯粹意义上的分布式系统。

是什么力量造成了集中与分布的此消彼长?

让我们从历史中试着寻找答案。

商业需要集中,希望通过产品实现更好的控制和更高的利润。但随着产品集中度的不断上升,系统会越来越复杂,实现的难度越来越大,沟通、交流和管理的成本也越来越高,最终变得不经济。

社会需要分工,让专业的人做专业的事,涂尔干的《社会分工论》谈到,“分工使社会像有机体一样,每个成员都为社会整体服务,同时又不能脱离整体,分工就像社会的纽带,故谓之‘有机团结’。”

分布式技术的诞生,正是基于这种思想。产品功能被分解并分布到不同的节点上去完成,节点之间通过网络实现沟通。分布式系统中的一些节点或因为商业上的成功,重新成为“集中化”的节点,但随着时代的改变,它们终将会进入新一轮的分布式周期。如此往复。

集中和分布不是光谱的两端,任何伟大的产品,都是商业和技术的“有机团结”。

以上是区块链与大数据之间的一些相同点,接下来聊一聊两者之间的不同点。

两者属于不同的时代,区块链继大数据之后的又一次技术革命。

两个技术处于不同的生命周期

——Gartner Hype Cycle

技术成熟度曲线(The Hype Cycle)是咨询公司Gartner用来分析和预测各种新科技的成熟演变速度及所需时间著名工具。

“大数据”与“区块链”在Gartner历年的《技术成熟度曲线》中的出现情况

2011年,“大数据”第一次上榜,位于技术萌芽期的爬坡阶段,当时还统称为“‘Big Data’ and Extreme Information Processing and Management”(“大数据”和极端信息处理和管理)。2012年更进一步,并在2013年几乎达到了过热期顶峰。经历了2014年的下滑,从2015年开始,“大数据”突然从曲线中消失,可解读为Gartner对大数据的定位已从“新兴”转为“主流”。当前,大数据对于企业的意义已从能力要素上升为战略核心。

相对而言,“区块链”直到2016年才第一次出现在《技术成熟度曲线》中,并直接进入“过热期”。总的来看,“大数据”和“区块链”所处的生命周期阶段大不相同,两者约有5年左右的差距。

主要差异在哪?

大数据通常用来描述数据集足够大,足够复杂,以致很难用传统的方式来处理。而区块链能承载的信息数据是有限的,离“大数据”标准还差得很远。区块链与大数据有几个显著差异:

  • 结构化vs非结构化:区块链是结构定义严谨的块,通过指针组成的链,典型的结构化数据,而大数据需要处理的更多的是非结构化数据;
  • 独立vs整合:区块链系统为保证安全性,信息是相对独立的,而大数据着重的是信息的整合分析;
  • 直接vs间接:区块链系统本身就是一个数据库,而大数据指的是对数据的深度分析和挖掘,是一种间接的数据;
  • 数学vs数据:区块链试图用数学说话,区块链主张“代码即法律”,而大数据试图用数据说话;
  • 匿名vs个性:区块链是匿名的(公开账本,匿名拥有者,相对于传统金融机构的公开账号,账本保密),而大数据有意的是个性化;

差异能否调和?

对一个分布式系统来说,存在CAP定理(CAP theorem)又被称作布鲁尔定理(Brewer’s theorem),它指出一个分布式系统不可能同时满足以下三点:

  • 一致性(Consistence):在分布式系统中的所有数据备份,在同一时刻是否同样的值。
  • 可用性(Availability):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。
  • 分区容忍性(Partition tolerance):集群中的某些节点在无法联系后,集群整体是否还能继续进行服务。

由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容忍性是我们必须需要实现的。换句话说,CAP定理表明我们必须在一致性(C)和可用性(A)之间进行权衡。

具体到区块链和大数据来说,大数据是以牺牲一致性(C)来换取可用性(A)和分区容忍性(P)的,而区块链却优先保证了一致性(C)。

可相互借鉴之处

通过CAP定理,我们知道区块链和大数据的诸多特性无法两全,需要针对具体场景,在多样化的取舍方案下设计出多样化的系统。

区块链+大数据:在区块链中使用大数据技术

区块链是一种不可篡改的、全历史的分布式数据库存储技术,巨大的区块链数据集合包含着每一笔交易的全部历史,随着区块链技术的应用迅速发展,数据规模会越来越大,不同业务场景区块链的数据融合会进一步扩大数据规模和丰富性。

区块链以其可信任性、安全性和不可篡改性,让更多数据被解放出来,推进数据的海量增长。区块链的可追溯性使得数据从采集、交易、流通,以及计算分析的每一步记录都可以留存在区块链上,使得数据的质量获得前所未有的强信任背书,也保证了数据分析结果的正确性和数据挖掘的效果。

区块链能够进一步规范数据的使用,精细化授权范围。脱敏后的数据交易流通,则有利于突破信息孤岛,建立数据横向流通机制,形成“社会化大数据”。基于区块链的价值转移网络,逐步推动形成基于全球化的数据交易场景。

区块链提供的是账本的完整性,数据统计分析的能力较弱。大数据则具备海量数据存储技术和灵活高效的分析技术,极大提升区块链数据的价值和使用空间。

大数据+区块链:在大数据中使用区块链技术

大数据的技术生态百花齐放,没有哪个软件能解决所有的问题,能解决问题也是在一个范围内,即使是Spark、Flink等。在强调透明性、安全性的场景下,区块链有其用武之地。在大数据的系统上使用区块链技术,可以使得数据不能被随意添加、修改和删除,当然其时间和数据量级是有限度的。

来源: http://www.open-open.com/lib/view/open1488975503294.html

 

区块链首先是指通过去中心化和去信任的方式集体维护一个可靠数据库的技术方案,这也注定了大数据和区块链的密切联系,甚至可以说,区块链将在未来重构大数据。

在《区块链:新经济蓝图》一书中,作者Melanie Swan以宏观的角度检视互联网依赖数据发展的阶段,将数据发展阶段分为三个阶段:

第一阶段,数据是无序的,并没有经过充分检验;

第二阶段,伴随着大数据和大规模社交网络的兴起,通过大数据的交叉检验和推荐,所有的数据将会根据质量进行甄别,这些数据将不再是杂乱无章,而是能够一定人工智能算法进行质量排序;

第三阶段,正是区块链能够让数据进入到这一阶段,即有些数据将通过采用全球共识的区块链机制,这些数据可以获得基于互联网全局可信的质量,这几乎可以说人类目前获得最坚固信用基础的数据,这些数据的精度和质量都获得了前所谓未有的提升。

而这三个阶段恰好符合了互联网数据库发展需要经历的三个阶段,即从关系型数据库发展到非关系型数据库,再到区块链数据库。

在互联网诞生初期,数据库主要的类型是关系型数据库,这是一种采用了关系模型来组织数据的数据库。这是在1970年由IBM的研究员E.F.Codd博士首先提出的,在之后的几十年中,关系模型的概念得到了充分的发展并逐渐成为主流数据库结构的主流模型。简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。

然而,随着互联网大数据时代的兴起,传统的关系型数据库在应付WEB2.0网站,特别是超大规模和高并发的SNS类型的WEB2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而NoSQL的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL,泛指非关系型的数据库,具有高并发性和可拓展性,它的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。

但是构建在这之上的大数据,最大的问题就是无法解决信任问题。因为互联网将使得全球之间的互动越来越紧密,伴随而来的就是巨大的信任鸿沟。目前现有的主流数据库技术架构都是私密且中心化的,在这个架构上是永远无法解决价值转移和互信问题。所以区块链技术将成为下一代数据库架构。通过去中心化技术,将能够在大数据的基础上完成全球互信这个巨大的进步。

区块链技术作为一种特定分布式存取数据技术,它通过网络中多个参与计算的节点开共同参与数据的计算和记录,并且互相验证其信息的有效性。从这一点来,区块链技术也是一种特定的数据库技术。这种数据库将会实现Melanie Swan所说的第三种数据类型,即能够获得基于全网共识为基础的数据可信性。在目前互联网刚刚进入大数据时代,但是从目前来看,我们的大数据还处于非常基础的阶段。但是当进入到区块链数据库阶段,将进入到真正的强信任背书的大数据时代。这里面的所有数据都获得坚不可摧的质量,任何人都没有能力也没有必要去质疑,区块链会成为大数据的安全机制之一。

大数据通过区块链可以极大降低信用成本

我们未来的信用资源从何而来?其实中国正迅速发展的互联网金融行业已经告诉了我们,信用资源会很大程度上来自于大数据。

大数据金融是互联网金融的重要发展模式之一,是指集合海量非结构化数据,通过对其进行实时分析,可以为互联网金融机构提供客户全方位信息,通过分析和挖掘客户的交易和消费信息掌握客户的消费习惯,并准确预测客户行为,使金融机构和金融服务平台在营销和风险控制方面有的放矢。例如蚂蚁花呗和京东白条,就是根据消费者的消费记录做出信用评估,属于消费信贷(产品)。它们的出现正是因为互联网公司通过手中的大数据,把传统的信用资源成本极大降低,通过大数据很廉价地评估了我们的信用。

显而易见,通过大数据挖掘应该很容易就能建立每个人的信用资源,但现实并没有如此乐观。关键问题就在于现在的大数据并没有基于区块链存在,这些大的互联网公司几乎都是各自垄断,形成了各自私密而中心化的记账中心,导致了数据孤岛现象。而且事实上数据所有权也存在错位,我们的个人数据并没有被自己控制,就如我们每天在微信上产生了大数据,这将使我们未来重要的信用资源,但我们完全无法控制它。而一旦这些大数据在区块链中登记用来建立信用,恐怕是比房产证明、工资流水更有价值的信用资源。

在经济全球化、数据全球化的时代,如果大数据仅仅掌握在互联网公司的话,全球的市场信用体系建立是并不能去中心化的,因为每个互联网公司只能自己形成价值转移闭环,只有当未来大数据在区块链上加密,才能真正成为个人产权清晰的信用资源,这也必将是未来的发展趋势。区块链技术的发展已经能让很多数据文件加密,直接可以在区块链上做交易,那么我们的交易数据将来可以完全存储在区块链上,成为我们个人的信用,所有的大数据将成为每个人产权清晰的信用资源,这也是未来全球信用体系建构的基础。

未来应用场景

1、金融行业的引领发展

正如区块链首先运用于比特币这一虚拟货币中一样,大数据加区块链的解决方案首先将带来金融行业的变革。

正像前面提到的信用体系的建立,解决方案首先在银行征信领域大有所为。目前,商业银行信贷业务的开展,无论是针对企业还是个人,最基础的考量是借款主体本身所具备的金融信用。各家银行将每个借款主体的还款情况上传至央行的征信中心,需要查询时,在客户授权的前提下,再从央行征信中心下载参考。这其中存在信息不完整、数据不准确、使用效率低、使用成本高等问题。在这一领域,区块链的优势在于依靠程序算法自动记录海量信息,并存储在区块链网络的每一台计算机上,信息透明、篡改难度高、使用成本低。各商业银行以加密的形式存储并共享客户在本机构的信用状况,客户申请贷款时不必再到央行申请查询征信,即去中心化,贷款机构通过调取区块链的相应信息数据即可完成全部征信工作。

另外,凡是涉及到交互的记录都可以考虑在区块链技术上开发相关应用。以区块链为底层技术建立起来的金融系统,可以通过点对点交易降低经营成本,提高支付/确权效率,满足监管和客户对数据记录的要求。例如国内很多金融机构正在实践的采用区块链技术作为体层技术架构推出的积分系统,用户在享受普通积分功能的基础上,还可以通过“发红包”的形式将积分向朋友转赠,未来随着更多的公司加入,用户还可以与其他公司发行的区块链积分互换。让客户真正拥有对自身数据的支配权力。

可以说,区块链有可能成为共享经济或者共享金融的基石。

2、医疗行业的数据变革

目前的医疗行业正遭受着严重的数据问题,关键在于其传统的中心化存储。

一方面,大多数医院的账本都不公开,这就阻挡了新的医疗信息在世界各地之间的传播,同时也限制了各个医生与同事之间信息的传播。在国外,当一个人搬家或者在旅途中生病而不能与他们自己的医生联系的时候,他们的医疗记录的调取就会面临挑战;而在中国,面对没有私人医生的情景,我们面临的挑战将更加的严峻。

另一方面每年都会有大量的新的医疗研究出现。现有体系下,每一个医生或者医生团体都会很难跟上最新发布的医疗信息或者察觉哪些实践已经过时。甚至医生还很难断定他们在新医疗文件中读到的实践是否准确,直到他们自己亲自测试这些材料。

同时,医疗数据还存在严重的质量和安全问题,这很可能导致误诊,引致黑客攻击,同时造成电子病历(EHR)无法正常更新(如果同一份病历被多人同时编辑就会出错)。因此,现有的医疗数据是不可靠的,例如,同一个病人有多种不同版本的病历,里面的数据大量不吻合,而接手的医生又恰巧没有仔细核对。如此一来,病人很可能遭受误诊,还有各种随之而来的心理、生理、经济损失等问题。

大数据加区块链的解决方案改善上述情况。当大数据和区块链与医疗行业进行整合能够为医疗行业建立一个可靠的全球数据库,每一个人都可以信任,美宜佳公司访问到的数据都相同,这些数据通过透明的方式被共享,这样就会生成仅有的一个统一的并且每个人都相信的日志。而且因为在区块链技术中,没有人有权管理全部数据,而同时,所有参与者都有责任维护信息安全,这能大大降低医疗卫生行业误诊或者恶意修改数据的行为。

与金融行业一样,医疗行业同样为区块链提供了最早的以及最具发展前途的使用案例应用机会。

3、物联网的最优解决方案

毋庸置疑,物联网产业正处于快速发展的阶段。高德纳公司预测在未来4年物联网的设备数量将会超过250亿。从小型传感器到大型家电都可以加入到物联网。而大数据和物联网整合早已不是新闻,大数据已经是物联网密不可分的基础组成部分,但是仅仅整合了大数据的物联网依然会面临两个重大的挑战:设备安全和用户数据隐私。

传统的中心化管理机构和消息代理可以帮助解决这些问题,但是他们的规模将无法处理未来物联网设备的数量和这些设备产生的数千亿笔交易。一些重量级产业领导提出了区块链可以成为克服这些挑战的解决方案。在去中心化物联网中,区块链将会用于促进交易处理和交互设备间的协调。每一个物联网设备都会管理自己在交互作用中的角色,行为和规则。

计算机巨头IBM谈到:“千亿以上的(智能设备)预计将爆发,届时将席卷了整个电子行业及周边产业,必须提高阈值予以应对。”IBM深信在物联网革新的问题上,比特币“区块链提供了一个优雅的解决方法”。

我们可以大胆地推测,大数据和区块链的结合将是物联网的最佳解决方案。

4、保险行业的创新

2016年5月份,“水滴互助”创业项目宣布获得5000万元天使投资,估值近3亿元。它被看成是社会保险和商业保险之外的另一种保险方式。其特点是基于场景化大数据和区块链技术,解决用户在面对重大疾病时的医疗资金问题。目前,重大疾病赔付范围涵盖了五十种,全部为癌症。

水滴互助是一个针对重大疾病推出的互助保障平台。用户花9元成为会员,180天观察期之后,能够享受相应的赔付权利。当加入平台的用户出现重大疾病时(目前全部针对癌症),最高能获得水滴互助的30万元赔付。而赔付的资金由平台的用户平摊,原则上每次平摊费用不超过3元。这种方式旨在解决当下以癌症为主的大病发生率持续上涨,而普通老百姓没钱医治、医保没有覆盖的现实问题。

为了保证参与人的公平性,水滴互助根据不同年龄层次进行群体划分,包括18至50岁的“关心自己抗癌互助计划”,针对51至65周岁高发人群的“孝敬父母抗癌互助计划”和针对出生满30天至17周岁的青少儿 “关爱子女大病互助计划”。每个层级都根据发病率等因素对赔付金额做了相应调整,从2万到30万不等。

这样一种全新的保险模式就是基于大数据和区块链技术进行开发的,大量用户产生的交易和数据通过区块链进行存储,保证了数据的公开透明性及难以篡改。甚至在可预见的未来,这样的模式还将应用于公益事业中。(文/李启雷)

来源: http://www.gongxiangcj.com/show-22-1199-1.html

关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。

一条评论
  • 匿名

    2017-03-15 22:03

    感觉要火?BT币到底是什么东东?

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.