Quick BI (PC端)支持多少种图表类型
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
数据可视化——图表类型选择
目录图表类型选择的依据图表的功能性总结图表类型总结比较类柱状图和柱状图变体气泡图色块图雷达图漏斗图K线图词云图子弹图分布类箱形图(盒须图、盒式图、箱线图)气泡图
色块图
分布曲线图热力图直方图占比类饼图环图(环形图、甜甜圈图)堆叠柱状图堆叠面积图关联类桑基图趋势类折线图面积图堆叠面积图
K线图
回归曲线图地图类气泡地图分级统计地图点描法地图图表类型选择的依据数据可视化图表类型选择,总结下来,需要考虑三点:
需要从已有数据出发,考虑想要用数据图表做什么,也就是图表的功能性。比如我要查看公司产品的用户中的各年龄段的占比,如果可分成5个年龄段,那用饼图就比较合适。还要考虑图表对使用者的理解能力要求,也就是可理解性。刚才的例子说到饼图,饼图对于任何人都是比较浅显易懂的,那就不存在问题,如果比较复杂的图形比如桑基图,就要考虑使用人是谁,有没有可能这个图使用人无法理解。然后要考虑图表的可读性,用刚才的例子,5个年龄段,用饼图比较合理,如果是15个年龄段,当然也能用饼图去表现,但是可读性会降低一些,占比1%以下的部分就无法进行比较了。图表的功能性总结可视化图表所具有的功能有很多,比如柱状图,通过不同类别的柱长,来代表每一类别数值大小,可起到不同类别之间做比较的功能。有些图表具有多种功能。
比较:显示值与值之间的不同和相似之处。通常使用图形长度、面积、颜色来比较不同分类间数值的大小,也有用宽度、位置、角度等。比如最常见的柱状图,就具有比较的功能。分布:显示频率,数据分散在一个区间或分组。使用图形的位置、大小、颜色的渐变程度来表现数据的分布,通常用于展示连续数据上数值的分布情况。比如散点图、气泡图等,可以查看、分析数据的分布。流程:显示流程流转和流程流量。一般流程都会呈现出多个环节,每个环节之间会有相应的流量关系。比如漏斗图,具有流程分析的功能。占比:可显示同一维度上占比关系。比如饼图,有展示占比的作用。关联:显示数据之间相互关系。使用图形的嵌套和位置表示数据之间的关系,通常用于表示数据之间的前后顺序、父子关系以及相关性。比如韦恩图,有展示数据之间关系的作用趋势:分析数据的变化趋势。使用图形的位置表现出数据在连续区域上的分布,通常展示数据在连续区域上的大小变化的规律。比如折线图,可展示数据随时间变化的趋势地图:显示地理区域上的数据。使用地图作为背景,通过图形的位置来表现数据的地理位置,通常来展示数据在不同地理区域上的分布情况。比如气泡地图,可展示地图上每个区域的连续数据的大小。图表类型总结下面每个功能类型内的具体图表顺序,是按照我理解的最常见到不常见排序的。
比较类柱状图和柱状图变体下图是横向柱状图的示例,展示了某年各省份的GDP。
横向柱状图,来源:AntV柱状图的基本类型有横向和纵向(也称“条形图”)。演化出的进阶类型有:堆叠柱状图、双向柱状图、分组柱状图、玉玦图(环形柱状图)、南丁格尔玫瑰图。
横向柱状图和纵向柱状图的一大区别在于:横向柱状图可以容纳更多分类。一般来说,横向柱状图适合于少于30个分类,纵向柱状图适合于少于12个分类。下面是横向柱状图的一个例子。
基本的柱状图不多解释了,这里看下其他分类。
堆叠柱状图
下图是堆叠柱状图的一个示例,每种化妆品在各个城市的销售情况。
纵向堆叠柱状图适合用于二级分类的数据,要展示每个一级分类内部的二级分类的数值。可以形象得展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系。下面是一个纵向堆叠柱状图的例子。
横向堆叠柱状图和纵向堆叠柱状图的区别也是在于适宜展示的分类数量,上限分别是30和12。
还有一种特殊的堆叠柱状图是展示百分比的堆叠柱状图:柱子的各个层代表的是该类别数据占该分组总体数据的百分比,关注点在百分比而不在具体数量。
下图表是一个游戏公司在不同年份的各类游戏的销量情况。
百分比堆叠柱状图双向柱状图
下图是双向柱状图的示例。展示了某个公司各个部门对某项任务的完成情况数据的对比,完成人数使用正向柱状图表示、未完成人数使用反向柱状图表示。
双向柱状图,来源:AntV双向柱状图(又称“正负条形图”),使用正向和反向的柱子显示类别之间的数值比较。可用来比较两个事物或两个分类的多项数据,比如两个城市、两个公司、及格同学和不及格同学等。双向柱状图基本可以用雷达图替换,可以说在适用范围上,雷达图>双向柱状图。后面再说雷达图。
分组柱状图下图是分组柱状图的示例,对比了某游戏公司在2001、2002、2003这三年的各类游戏的销量情况
分组柱状图分组柱状图大致功能和堆叠柱状图相同,只是堆叠柱状图更方便看到各一级分类的总量,分组柱状图更强调二级分类之间的对比。
玉玦图(环形柱状图)
下图是玉玦图的示例,反应了美国民众对不同领域中的中美问题关注程度。
玉玦图,来源:AntV其实就是柱状图的直接变形,只是审美上占优势,有一个严重缺陷是:具有半径反馈效应。视觉上半径越大的玦环会看起来更大,半径小的则小,所以要使用且不想造成视觉误差就必须要先进行数量排序,但是如果分类本身是带有顺序的,比如我们要统计一个学校本科生各年级的人数,如果用玉玦图且按照数量排序,可能最终图形上线的分类以不符合常理的顺序出现,比如二、四、一、三。所以如果是内部数据分析使用,建议不要用玉玦图,用柱状图就好;如果是用于大屏,可以尝试使用,毕竟大屏的美观性相当重要。
南丁格尔玫瑰图
去年3月某二流报纸展示各国疫情数据时用了南丁格尔玫瑰图,传播效果很好。
南丁格尔玫瑰图,来源:人民日报在极坐标下绘制的柱状图,使用圆弧的半径长短表示数据的大小,注意各分类的圆弧角度是相同的。适用于数据量不超过30条的场景,和普通横向柱状图对比,适用场景基本相同,只是南丁格尔玫瑰图会夸大各分类间的差距,且可理解性稍差,建议还是多用柱状图比较好。
气泡图下图例子,每个气泡代表一个国家,横坐标代表人均GDP,纵坐标代表人均寿命,气泡面积大小代表人口数量。
气泡图气泡图具有“比较”功能和“分布”功能。气泡图最基本的用法是使用三个值来确定每个数据序列,一个值作为横坐标,一个值作为纵坐标,一个值作为气泡面积大小。注意这里第三个值不是体现气泡半径大小,而是面积大小。基本的气泡图可体现三个数据维度,当然也可以通过不同颜色增加第四维度。气泡图可以用于对于多维度数据进行探索性分析,可分析数据之间的相关性。
色块图下图例子是某年股指的波动情况的色块图,每个色块代表一天的股指涨跌幅度,通过365个色块展示了全年365天的涨跌情况,下方有个滑块,可以选择只查看特定数值范围。
色块图色块图具有“比较”功能和“分布”功能。适合用于直接对数据量较大的、相对原始的数据进行分析。
雷达图下图是日本解说乒乓球比赛时,常用到的六边形雷达图。没有放大名鼎鼎的“帝国破坏龙”的雷达图,因为那个图体现不出雷达图的作用,各维度的数值都到上限了。
雷达图,来源:乒乓网雷达图又叫戴布拉图、蜘蛛网图,可表现多维(4维以上)数据的图表。用于从多个维度评价某个事物(单个多边形),或者用于对比不同事物(多个多边形)。
缺点:多边形过多或数据维度过多,会导致可读性降低。
漏斗图下图是漏斗图的例子。
漏斗图,来源:AntV漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策。漏斗图在商业数据可视化中应用很多,就教育行业来说,常见的广告展示、广告点击、客户留下资料、销售转化、最终成交,这个过程在理论上非常适合用漏斗图,但是,实际上不一定。要考虑每一步的转化率是否过小,如果前两步的转化率相乘已经小于1%了,整个图形展示出来,后面几步就跟一根针一样,完全没有可视化的效果,不如直接单纯展示数字不必可做可视化了。当然因为常用可视化库比如echarts,都有点击某环节的图例选择不展示该环节,可以解决这一问题,但是在一开始是不可能有很好的效果的。
下图是对称漏斗图的示例,可以同时对两个业务流程进行分析。
对称漏斗图,来源:AntVK线图下图是K线图示例。
K线图,来源:AntVK线图解释:
K线图解释图,来演:AntV这个常用语展示股票交易数据,对于其他行业来说基本用不上,适用范围比较窄,在此不展开说了。词云图下图是词云图的示例。
词云图,来源:AntV词云图是专门用于文本数据可视化的图表类型,可用于对比不同文本的某项数值(比如出现频率)的大小。
子弹图下图是子弹图的示例。
子弹图,来源:AntV子弹图包含背景色条,表示定性范围,比如优、良、及格、不及格,包含预测值(或目标值)和实际值。适用范围比较窄,且可读性较差,但是在适用场景下会特别好用,比如展示学生成绩。
分布类箱形图(盒须图、盒式图、箱线图)箱形图(BoxChart)我查了资料后发现有两种,我暂时将这两种称为简版箱形图和进阶箱形图,哪位朋友如果有更好的叫法可以告诉我。
下面是基本箱形图的一个例子,展示了鸢尾花数据的花萼长度、花萼宽度、花瓣长度、花瓣宽度四个数据维度的分布情况。
简版箱型图,来源:AntV下图解释了箱形图的含义。
箱形图解释图,来源:AntV每个维度的数据取上图中的五个点可绘制出箱形图,这是简版箱形图。这种箱形图是比较容易理解的,适用于比较多组数据的分布情况,
可以观察到:
一组数据的关键值:中位数、最大值、最小值等。数据是否是对称的。这组数据的分布是否密集、集中。下面是进阶箱型图的例子
进阶箱形图,来源:http://seaborn.pydata.org下图是进阶箱形图的解释图
进阶箱形图解释图,来源:百度百科一组数据,下四分位数记为Q1,中位数记为Q2,上四分位数记为Q3,这里不多解释分位数的概念了。四分位间距IQR=Q3-Q1,下限=Q1-1.5*IQR,注意这里说的是下限,不是下边缘,下边缘是这组数据中大于下限(Q1-1.5*IQR)所有的数值中的最小值,上限=Q3+1.5*IQR,上边缘是这组数据中小于上限的所有数值的最大值,超出上边缘和下边缘的数值作为异常值,以圆圈等形状做特殊标记。
如果特别关注异常值,可以把异常值分成两类,下面是解释图。
进阶箱形图解释图,来源:https://www.jianshu.com/p/3e5bb4e50ea9这里的上下限有两种,一种是温和异常值上下限,距离Q1和Q3是1.5倍IQR(四分位间距);另外一种是极端异常值上下限,距离Q1和Q3是3倍的IQR。超过温和异常值上下限且不超过极端异常值上下限的数值,是温和异常值;超过极端异常值上下限的数值,是极端异常值。温和异常值和极端异常值用不同形状符号标记
写了这么多,才能把这种进阶箱形图解释清楚,足以证明箱形图的可理解性稍差,但随之带来的就是,如果有一个有相关知识背景的图表使用人,可以通过一个箱形图获得相当丰富的信息量,信息密度或者说信噪比极高。
从进阶箱形图中我们可以观察到:
一组数据的关键值:中位数、四分位数、最大值、最小值、异常值、去掉异常值的最大值和最小值等。数据是否是对称的。这组数据的分布是否密集、集中。气泡图见比较类-气泡图
色块图见比较类-色块图
分布曲线图未完待续
热力图下图是杭州房租热力图,用于显示杭州市房租价格分布。每个位置的颜色越深,代表该位置的房价越高。
热力图,来源:AntV热力图一般出现在地图上,也可以用在直角坐标系上,一般边界经平滑处理,每个位置的颜色深度代表该位置的连续数据大小,比如上图就是房价。
热力图的可理解性、可读性非常强,只是需要一个合适的使用场景,比如地区的房价、地区的人口,总之跟地图结合展示某个连续数据非常合适。
直方图直方图有两种,下图是原始的标准的直方图的示例,展示了一组员工身高数据的分布,X轴表示这组员工的高度,每个矩形的面积表示数量。比如170cm