大数据可视化之美与可视分析

推荐会员: lex 所属分类: 行业精选 发布时间: 2015-11-27 16:38

大数据近年来被广泛关注。科学计算手段的进步,超级计算中心产生前所未有的模拟数据;另一方面以Facebook, QQ等为代表的社交网络的兴起,以及Twitte、微博等社会媒体的迅速崛起,每天都会产生TB/PB级别的数据。但是拥有大量的数据并不等于获得相应数据的价值。只有能够有效理解数据,才能真正利用好大数据。复杂数据,例如微博的用户关系、庞杂的事件发展对发展相应的分析工具提出了新的挑战和要求。而近来,可视化和可视分析越来越得到重视。和其他分析手段不同,可视化利用人类视觉认知的高通量特点,通过图形的形式表现信息的内在规律及其传递、表达的过程,是人们理解复杂现象,诠释复杂数据的重要手段和途径。可视化和可视分析技术也越来越广泛地被应用到科学、工程、商业和日常生活中。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息;同时提供快速、可检验、易理解的评估和更有效地交流手段。本次报告我们将讨论和分析大数据可视化和可视分析的前沿算法和新方法,包括数据密集科研可视化以及面向社交网络和自媒体的可视化与可视分析研究工作。我们将介绍可视化如何帮助科学家理解超新星的爆发,地震发生的规律,表现大都市交通的拥堵,发掘微博扩散传播的路线。特别的,还将讨论如何利用众包的方式,构建对复杂信息的可视分析平台。

一、大数据可视化之美

1、互联网地图,浩瀚宇宙中的网站“星球”

大数据可视化之美 The Internet Map

我们常说 Facebook 是一个社交帝国、Amazon 是一个购物王国。那如果把每个互联网公司都比做是一个星球,整个互联网又是什么样的呢?

为了探究互联网这个庞大的宇宙,俄罗斯工程师 Ruslan Enikeev 根据 2011 年底的数据,将 196 个国家的 35 万个网站数据整合起来,并根据 200 多万个网站链接将这些“星球”通过关系链联系起来—— The Internet Map。其中青蓝色代表美国、黄色代表中国、绿色代表印度、深蓝色代表德国、红色代表俄罗斯。

每一个“星球”的大小根据其网站流量来决定,而“星球之间”的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接。如果你想了解他们呢具体的算法,你可以看看这两篇 PDF 文档,分别 从数学和 工程学角度详细介绍了这个巨型宇宙形成的方式。

大数据可视化之美 The Internet Map

这是大数据挖掘可视化的一个经典案例。在这个互联网的宇宙中,每一个大网站都是一个星球。你可以输入国家查看这个“星系”里最大的“星球”,也可以直接输入网站查看某一“星球的位置”(比如 zzstory.com)。这些星球有恒星、行星,甚至卫星,每一个星球都有其特定的星系。当你放大到一定程度时,你能发现这些大大小小的“星球”之间神奇的关系,简直太美了!

2、QQ在线人数  http://im.qq.com/online/index.shtml

大数据可视化之美 QQ在线人数

3、FaceBook交互可视化

FaceBook交互可视化

大数据可视化之美

4、淘宝应用—CatMap

淘宝应用—CatMap

5、淘宝应用—TravelTrends

淘宝应用—TravelTrends

6、淘宝应用—TaoTrends

淘宝应用—TaoTrends

二、数据可视化技术

大规模数据的可视化和绘制[3]主要是基于并行算法设计的技术,合理利用有限的计算资源,高效地处理和分析特定的数据集的特性。很多情况下,大规模数据可视化的技术通常会结合多分辨率表示等方法,以获得足够的互动性能。在面向大规模数据的并行可视化工作中,主要涉及四种基本技术:

- 数据流线化(Data Streaming)

- 任务并行化(Task Parallelism)

- 管道并行化(Pipeline Parallelism)

- 数据并行化(Data Parallelism)

数据流线化(Data Streaming)将大数据分为相互独立的子块后依次处理。在数据规模远大于计算资源时是主要的一类可视化手段。它能够处理任意大规模的数据,同时也可能提供更有效的缓存使用效率,并减少内存交换,但通常这类方法需要较长的处理时间,不能提供对数据的交互挖掘。离核渲染(Out-of-Core Rendering)是数据流线化的一种重要形式。任务并行化(Task Parallelism)是把多个独立的任务模块平行处理。这类方法要求将一个算法分解为多个独立的子任务,并需要相应的多重计算资源。其并行程度主要受限于算法的可分解粒度以及计算资源中节点的数目。管道并行化(Pipeline Parallelism)是同时处理各自面向不同数据子块的多个独立的任务模块。以上任务并行化和管道并行化两类方法,如何达到负载的平衡是关键难点。数据并行化(Data Parallelism)是将数据分块后进行平行处理,通常称为单程序多数据流(SPMD)模式。这类方法能达到高度的平行化,并且在计算节点增加的时候可以达到较好的可扩展性。对于非常大规模的并行可视化,节点之间的通讯往往是制约因素。提高数据的本地性也可以大大提高效率。以上这些技术往往在实践中相互结合,从而构建一个更高效的解决方法。

可视化中图形的绘制是一个计算密集型的处理工作。在处理大规模数据时,使用可视化算法,以互动的速度来绘制图形已经超出了单一的CPU和GPU图形加速器的计算能力。数据并行绘制方法被普遍地用于提高可视化系统的交互速度。最普遍应用的并行绘制算法的分类是基于绘制流水线中图元排序的位置[4]。依据排序的先后,可以大致分为:首排序(Sort-first)、中排序(Sort-middle)和末排序(Sort-last)

首排序(Sort-first)算法在绘制流水线的起点分配基本图元,通过分割输出图像区域,给每一个处理节点分配相应的区域。一旦这些基本图形分配完成后,每一个处理器会完成整个图形管线的处理而生成最终的子图像。先排序算法可以充分发挥每个节点图形硬件加速器的性能,处理器间的通讯要求低,从而能通过较低的开销获得更高的性能。先排序算法的主要缺点是工作量分配的不平衡问题。

中排序(Sort-middle)算法中,数据的分配发生在绘制流水线的几何处理和扫描转换阶段。绘制流水线的分裂是中排序方法的最大不足,在早期,它很难充分利用图形硬件加速器进行绘制。但随着可编程图形硬件加速器的发展,这部分问题可以得到部分解决。此外该方法也会有工作负载量不均衡的问题。

末排序(Sort-last)的方法把排序推迟到绘制流水线的最后阶段。基本图形的初始化分配是采用随机的方式,每一个处理器绘制其相应的最终图像。所有的这些子图最终复合成一个完整的图像。处理器间通过高速网络来满足交互绘制的需求。末排序可以完全利用整个图形处理器的渲染性能,并能较好均衡工作负载。其主要的缺点是在图像合成阶段,需要发送大量的数据。其中,二分交换合成法(Binary-Swap Compositing)[1]较好低利用了图像合成中有限的计算和通讯能力,是一种经典的方法。

近年来受到关注的一种针对模拟计算产生的超大规模数据的可视化模式被称为原位可视化(In Situ Visualization)[2]。它通过将模拟计算和可视化紧密结合,降低数据传输和存储的成本。如下图所示,通常的可视化模式将PB量级模拟产生的全部数据传递到存储设备,再经处理后用于可视化。数据传输是整个系统的瓶颈,I/O将占据绝大部分的计算时间。而在原位可视化模式中,数据直接在计算后原位被缩减与前处理,再用于随后的可视化与分析。经过缩减后的数据,通常比原始数据小多个数量级,能够极大地降低数据传递和存储的开支。

image

图  (a) 传统可视化模式;(b)原位可视化模式 (基于[2])

我们需要注意到,图形硬件对于大规模数据可视化具有重要意义。最新的超级计算机大量地应用GPU作为计算单元。如何更好发掘最新的图形硬件潜力,提供更加灵活的大数据可视化和绘制的解决方法是具有重大意义的课题。除了科学计算数据外,我们也要关注信息可视化中大规模数据的涌现,研究此类工作的大规模分析处理方法将很快成为迫切的需求。

三、Tufte 设计原理

– 在最小的空间用最少的墨水让用户在最短的时间获得尽可能多的想法和观点

– 尽可能大的数据墨水比

– 尽可能大的数据密度

– 展示数据的变化,而不是设计的变化

– 真实地反映数据所蕴含的事实

四、数据可视化工具

– IRIS Explorer

www.nag.co.uk

– AVS

www.avs.com

– OpenDX (grown from IBM Visualization Data Explorer)

www.opendx.org

除非注明,一位博客文章均为原创,转载请以链接形式标明本文地址。来源:http://www.zzstory.com/archives/1958.html

关键词:

版权声明:本站原创和会员推荐转载文章,仅供学习交流使用,不会用于任何商业用途,转载本站文章请注明来源、原文链接和作者,否则产生的任何版权纠纷与本站无关,如果有文章侵犯到原作者的权益,请您与我们联系删除或者进行授权,联系邮箱:service@datagold.com.cn。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据