# 数据可视化

数据可视化指使用点、线、图表、统计图或信息图等工具对数据进行编码,在视觉上传达定量信息。数据可视化可以化繁为简,有效的增强数据交互性,将复杂的数据通过图形化的手段清晰的呈现出来,达到传达和沟通信息的目的。通过数据可视化的手段,有助于我们更快的发现新趋势、新机遇。

数据可视化具有传播速度快、数据显示更直观,数据能够多维展示,内容便于记忆,可以定制现实等特点。可视化的图表比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。通过图表也更容易对数据进行分类、排序显示,使数据可以多维展示。

数据可视化是由科学可视化、信息可视化和可视分析学三个学科构成。科学可视化面向科学和工程领域数据,信息可视化处理的对象是抽象的信息集合,用于信息展示,可视化分析学综合了统计学将人感知和认知的能力,用于科学的对事物进行分析和研究。

# 数据可视化设计步骤

数据可视化可以分为四步,分别是主题确认、数据准备、图表选择以及数据可视化。主题确认包含业务需求确认和主题风格确认,数据可视化首先要确定受众群体和业务指标,要明确解决的具体问题,确定展示重点呈现的内容。确定了业务需求,就要根据受众群体和应用场景,确定可视化的主题风格。

在主题确认之后,要准备可视化的数据,数据可视化要遵循准确性、实用性和适应性这三个原则。数据准备的过程中,要先根据业务需求核对数据仓库中的数据,对于缺失的数据及时进行补充,然后将确定好的书记与业务指标进行核对、分析和重组,最后将重组后的数据保存到单独的表中,以供后续使用。

图表的选择直接影响可视化的最终效果,图表需要非常直观的体现数据,满足对比、突出等业务需求,大数据可视化工程师必须了解主流图表类型,熟悉图表特性,才能使用合适的图表传达准确的信息。

数据可视化是为了更好的优化图形和突出重点,对数据展示设计进行合理的分析。复杂的数据信息,通常要采用一目了然的设计,让用户不需要过多的了解数据内容,就可以直观的看到关键信息。

# 基础图表

指标类图表

表格类图表

趋势类图表

比较类图表

分布类图表

关系类图表

WeChatbe6f27c0996f07e86456a53f7d196835.png

WeChatcee117aa7bae3e2edd1ebf3583d126ef.png

WeChat9d77842ae15485d53b8f9e21e1d1c2c7.png

空间类图表

WeChat204745873872c3632149e5e67e6a8e30.png

# 折线图

折线图是通过直线将一些数据点按照某种顺序连接起来形成的图,利用折线图可以查看数据中随一个有序变量(如时间)变化的趋势。例如,可以通过折线图展示五年期股价的变化、一个月内的网页查看次数,逐季度收入的增长情况等,通过折线图可以清晰的展现数据的增减趋势、速率、规律、数据的峰值和谷底的特征,但是没张折线图上折线条数不易过多。类似折线图的图表有:堆积图、曲线图、双Y轴折线图和面积图等。

# 柱状图

柱状图是按长方形长度来表达数值的统计报告图,使用垂直或水平的柱子显示类别之间的数值比较,其中一个轴表示需要对比的分类维度,另外一个轴代表相应的数值。柱状图适合用于跨类别比较数据,它的优势是可以简单直观的做出比较,一目了然的揭示高低点,但是不太适合较大数据集的展现,例如,可以用柱状图展示不同类型客户的数量、按来源站点划分网站流量、按分区划分消费比率。类似的图表有:条形图、直方图、堆积图等。

# 饼图

饼图又称扇形图,是指以饼状图行显示一个数据系列中各项的大小与总和的比例,它可以用来表示不同分类的占比情况,通过弧度大小来对比各种分类。利用饼图可以很容易看到组成成分的占比,相比于其他图表,饼图需要占据更大的画布空间,所以其不太适用多分类的数据。和饼图类似的图表有环形图和玫瑰图。

# 散点图

散点图也叫X-Y图,它将所有数据以点的形式展现在直角坐标系上,从而显示变量之间的相互影响程度,点的位置由变量数值决定。通常用散点图显示和比较数值,用它显示某个数据集的趋势,或者数据集的形状以及在数据集中个数据点的关系,散点图适合较大的数据集,和它类似的图表是气泡图。

# 雷达图

雷达图将多个维度的数据映射到坐标轴上,这些坐标轴起始于同一个圆心点,结束于圆周边缘,将同一组的点用线连接起来形成。雷达图适用于多维数据集,适合展现某个数据集的多个关键特征,以及和标准值的比对,或者比较多条数据在多个维度上的取值。要注意控制雷达图的变量,否则会使坐标轴过于密集,使图表可读性变差。

# 漏斗图

漏斗图有多个梯形从上而下叠加而成,它开始与一个100%的数量,结束于一个较小的数量,开始和结束之间由N个环节组成,每个环节用一个梯形表示,梯形上底宽标书当前环节的输入情况,下地宽度表示当前环节的输出情况,梯形边的斜率表现了当前环节的减小率。漏斗图适用于业务流程比较规范、周期时间长、环节多的单流程单项分析,通过漏斗中各环节业务数据的比较,能够直观的发现和说明问题所在的环节,从而做出决策。常用漏斗图展示转化率和流失率两个互补型的指标,类似的图表有金字塔图、旋风图、对比漏斗图等。

# 树图

树图是通过属性结构来展现层级数据的组织关系,以及父子层次结构来组织对象,是枚举法的一种表达方式。它适用于与组织结构有关的分析,需要有明确层次关系的数据,它可以直观的展示各层级指标之间的关系,还能够进行简单的上卷和下钻的操作。

矩阵树图也可以表示层级结构,数据的父子层次关系用矩形间的相互嵌套来表达,从根节点开始,空间根据相应的子节点数目被分为多个矩形,矩形面积大小对应节点的属性,每个矩形按照相应节点的子节点递归进行分割。

# 地图

地图通常是用地图背景的图形位置来表现数据的地理位置,同时将数据通过颜色或者气泡映射在不同的地理位置上,它适合带有地理编码的数据展现,对数据的地理分布可以显示的非常直观,通过颜色深浅,气泡大小等容易判断的元素度量指标大小。

# 可视化图表核心要素

图表名称 数据要素 要素构成
线图 类别轴、值轴 类别轴上最少一个维度,值轴上最少一个维度
柱状图 类别轴、值轴 类别轴上最少一个维度,值轴上最少一个维度
饼图 扇区标签、扇区角度 扇区标签上有且有一个维度,扇区角度上有且有一个度量
气泡地图 地理区域、气泡大小 地理区域有且有一个地理维度,气泡大小由最小一个或最多五个度量
色彩地图 地理区域、色彩饱和度 地理区域有且有一个地理维度,色彩饱和度最少一个或最多五个度量
仪表盘 指针角度、工具提示 有且仅有一个度量
雷达图 分支标签、分支长度 分支标签最少1个最多两个维度,分支长度最少1个度量
散点图 颜色图例、坐标轴 颜色图例有且有一个维度,x轴最少有一个度量,y轴只能有一个度量
漏斗图 漏斗层标签、漏斗层宽 漏斗层标签有且有一个维度,漏斗层宽有且有一个度量
矩阵树图 色块标签、色块大小 扇区标签有且仅有一个维度,扇区角度上有且仅有一个度量
词云图 词大小、词标签 词大小仅有一个维度,此标签仅有一个度量
旋风漏斗图 对比主题、对比指标 对比主题只有一个维度,对比指标仅有一个度量

各类型图表使用场景如下

  • 对比各个值之间的差别:柱图、雷达图、漏斗图、极坐标图、词云。
  • 部分占整体百分比:饼图、漏斗图、仪表盘、矩阵树图。
  • 显示各个值之间的关系:散点图、指标看板、树图、矩阵树图、来源去向图。
  • 数值随维度的变化情况:线图、柱图。
  • 数值和地理信息映射关系:气泡地图、色彩地图、点描法地图。