# 数据可视化
数据可视化指使用点、线、图表、统计图或信息图等工具对数据进行编码,在视觉上传达定量信息。数据可视化可以化繁为简,有效的增强数据交互性,将复杂的数据通过图形化的手段清晰的呈现出来,达到传达和沟通信息的目的。通过数据可视化的手段,有助于我们更快的发现新趋势、新机遇。
数据可视化具有传播速度快、数据显示更直观,数据能够多维展示,内容便于记忆,可以定制现实等特点。可视化的图表比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。通过图表也更容易对数据进行分类、排序显示,使数据可以多维展示。
数据可视化是由科学可视化、信息可视化和可视分析学三个学科构成。科学可视化面向科学和工程领域数据,信息可视化处理的对象是抽象的信息集合,用于信息展示,可视化分析学综合了统计学将人感知和认知的能力,用于科学的对事物进行分析和研究。
# 数据可视化设计步骤
数据可视化可以分为四步,分别是主题确认、数据准备、图表选择以及数据可视化。主题确认包含业务需求确认和主题风格确认,数据可视化首先要确定受众群体和业务指标,要明确解决的具体问题,确定展示重点呈现的内容。确定了业务需求,就要根据受众群体和应用场景,确定可视化的主题风格。
在主题确认之后,要准备可视化的数据,数据可视化要遵循准确性、实用性和适应性这三个原则。数据准备的过程中,要先根据业务需求核对数据仓库中的数据,对于缺失的数据及时进行补充,然后将确定好的书记与业务指标进行核对、分析和重组,最后将重组后的数据保存到单独的表中,以供后续使用。
图表的选择直接影响可视化的最终效果,图表需要非常直观的体现数据,满足对比、突出等业务需求,大数据可视化工程师必须了解主流图表类型,熟悉图表特性,才能使用合适的图表传达准确的信息。
数据可视化是为了更好的优化图形和突出重点,对数据展示设计进行合理的分析。复杂的数据信息,通常要采用一目了然的设计,让用户不需要过多的了解数据内容,就可以直观的看到关键信息。
# 基础图表
指标类图表:
表格类图表:
趋势类图表:
比较类图表:
分布类图表:
关系类图表:
空间类图表:
# 折线图
折线图是通过直线将一些数据点按照某种顺序连接起来形成的图,利用折线图可以查看数据中随一个有序变量(如时间)变化的趋势。例如,可以通过折线图展示五年期股价的变化、一个月内的网页查看次数,逐季度收入的增长情况等,通过折线图可以清晰的展现数据的增减趋势、速率、规律、数据的峰值和谷底的特征,但是没张折线图上折线条数不易过多。类似折线图的图表有:堆积图、曲线图、双Y轴折线图和面积图等。
# 柱状图
柱状图是按长方形长度来表达数值的统计报告图,使用垂直或水平的柱子显示类别之间的数值比较,其中一个轴表示需要对比的分类维度,另外一个轴代表相应的数值。柱状图适合用于跨类别比较数据,它的优势是可以简单直观的做出比较,一目了然的揭示高低点,但是不太适合较大数据集的展现,例如,可以用柱状图展示不同类型客户的数量、按来源站点划分网站流量、按分区划分消费比率。类似的图表有:条形图、直方图、堆积图等。
# 饼图
饼图又称扇形图,是指以饼状图行显示一个数据系列中各项的大小与总和的比例,它可以用来表示不同分类的占比情况,通过弧度大小来对比各种分类。利用饼图可以很容易看到组成成分的占比,相比于其他图表,饼图需要占据更大的画布空间,所以其不太适用多分类的数据。和饼图类似的图表有环形图和玫瑰图。
# 散点图
散点图也叫X-Y图,它将所有数据以点的形式展现在直角坐标系上,从而显示变量之间的相互影响程度,点的位置由变量数值决定。通常用散点图显示和比较数值,用它显示某个数据集的趋势,或者数据集的形状以及在数据集中个数据点的关系,散点图适合较大的数据集,和它类似的图表是气泡图。
# 雷达图
雷达图将多个维度的数据映射到坐标轴上,这些坐标轴起始于同一个圆心点,结束于圆周边缘,将同一组的点用线连接起来形成。雷达图适用于多维数据集,适合展现某个数据集的多个关键特征,以及和标准值的比对,或者比较多条数据在多个维度上的取值。要注意控制雷达图的变量,否则会使坐标轴过于密集,使图表可读性变差。
# 漏斗图
漏斗图有多个梯形从上而下叠加而成,它开始与一个100%的数量,结束于一个较小的数量,开始和结束之间由N个环节组成,每个环节用一个梯形表示,梯形上底宽标书当前环节的输入情况,下地宽度表示当前环节的输出情况,梯形边的斜率表现了当前环节的减小率。漏斗图适用于业务流程比较规范、周期时间长、环节多的单流程单项分析,通过漏斗中各环节业务数据的比较,能够直观的发现和说明问题所在的环节,从而做出决策。常用漏斗图展示转化率和流失率两个互补型的指标,类似的图表有金字塔图、旋风图、对比漏斗图等。
# 树图
树图是通过属性结构来展现层级数据的组织关系,以及父子层次结构来组织对象,是枚举法的一种表达方式。它适用于与组织结构有关的分析,需要有明确层次关系的数据,它可以直观的展示各层级指标之间的关系,还能够进行简单的上卷和下钻的操作。
矩阵树图也可以表示层级结构,数据的父子层次关系用矩形间的相互嵌套来表达,从根节点开始,空间根据相应的子节点数目被分为多个矩形,矩形面积大小对应节点的属性,每个矩形按照相应节点的子节点递归进行分割。
# 地图
地图通常是用地图背景的图形位置来表现数据的地理位置,同时将数据通过颜色或者气泡映射在不同的地理位置上,它适合带有地理编码的数据展现,对数据的地理分布可以显示的非常直观,通过颜色深浅,气泡大小等容易判断的元素度量指标大小。
# 可视化图表核心要素
图表名称 | 数据要素 | 要素构成 |
---|---|---|
线图 | 类别轴、值轴 | 类别轴上最少一个维度,值轴上最少一个维度 |
柱状图 | 类别轴、值轴 | 类别轴上最少一个维度,值轴上最少一个维度 |
饼图 | 扇区标签、扇区角度 | 扇区标签上有且有一个维度,扇区角度上有且有一个度量 |
气泡地图 | 地理区域、气泡大小 | 地理区域有且有一个地理维度,气泡大小由最小一个或最多五个度量 |
色彩地图 | 地理区域、色彩饱和度 | 地理区域有且有一个地理维度,色彩饱和度最少一个或最多五个度量 |
仪表盘 | 指针角度、工具提示 | 有且仅有一个度量 |
雷达图 | 分支标签、分支长度 | 分支标签最少1个最多两个维度,分支长度最少1个度量 |
散点图 | 颜色图例、坐标轴 | 颜色图例有且有一个维度,x轴最少有一个度量,y轴只能有一个度量 |
漏斗图 | 漏斗层标签、漏斗层宽 | 漏斗层标签有且有一个维度,漏斗层宽有且有一个度量 |
矩阵树图 | 色块标签、色块大小 | 扇区标签有且仅有一个维度,扇区角度上有且仅有一个度量 |
词云图 | 词大小、词标签 | 词大小仅有一个维度,此标签仅有一个度量 |
旋风漏斗图 | 对比主题、对比指标 | 对比主题只有一个维度,对比指标仅有一个度量 |
各类型图表使用场景如下:
- 对比各个值之间的差别:柱图、雷达图、漏斗图、极坐标图、词云。
- 部分占整体百分比:饼图、漏斗图、仪表盘、矩阵树图。
- 显示各个值之间的关系:散点图、指标看板、树图、矩阵树图、来源去向图。
- 数值随维度的变化情况:线图、柱图。
- 数值和地理信息映射关系:气泡地图、色彩地图、点描法地图。