1. 概述
箱线图是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名。
箱子的顶端和底端,分别代表上下四分位数。箱子中间的是中位数线,它将箱子一分为二。从箱子延伸出去的线条展现出了上下四分位数以外的数据,由于这两根延伸出去的线像是胡须,因此箱形图也被称为盒须图。有时,箱形图上也会出现个别的点,在胡须的末端值以外,这代表离群值,也可称之为异常值。
1.2 基本要求
箱线图的基本要求:
图表效果 | 字段 |
---|---|
箱线图 | X轴、Y轴、分组 或 极小值、极大值、中位数、上分位数、下分位数 |
1.3 图表特点
箱形图最大的优势是,它以一种简单的方式,概括出一个或多个数值变量的分布,同时又不会占据太多空间。通过箱形图,我们可以很快知道一些关键的统计值,如中位数、上下四分位数等;也可以分析是否存在离群值、离群值分别是多少。最后,我们还可以用多个箱型图,比较多组数据的分布,从而快速获得对数据结构、数据质量的认知。
比如在上面这张图中,我们可以看出:
①奥地利(Austria)、德国(Germany)、西班牙(Spain)的平均寿命会比较高。而白俄罗斯(Belarus)、伯利兹(Belize)和中国(China)的人均寿命相对较低(用中位数来衡量整体情况平均情况)。
②伯利兹(Belize)和中国(China)的人均寿命分布比较集中,因为箱子比较短。而奥地利(Austria)、德国(Germany)人均寿命分布比较分散。
③从各个箱形图的中位数和上下四位数的间距也可以看出白俄罗斯(Belarus)和中国(China)的人均寿命分布是比较的对称。
2. 示例
配置箱线图,首先我们需要在 星河可视化共创分析平台平台图表库找到箱线图并把它拖到看板中。
在箱线图字段设置中我们可以看到有个9字段可以配置,这是两种配置方式,以便不同场景下的配置需求。
比如在这套数据中,有各城市各时间段的最高温、最低温、空气质量指数、空气质量等级等记录。假如我们想找出某几个城市,在某个时间段的最高温,并用箱线图配置出来,我们应该怎么做?
2.1 前端计算配置方式
第一种配置方式:如果我们需要利用前端计算,我们需要配置X轴、Y轴、分组。因此我们只需要把相应的字段拖入,并作相应筛选即可,操作如图:
1)把“城市”字段拖入X轴、把“最高温”字段拖入Y轴(并设置平均值)、并把“”日期字段拖入分组中(因为是以最高温的日期做聚合,因此在这里拖入的是日期)。
2)在“条件过滤”中,我们拖入“城市”并筛选出自己想要的城市。如在这里我们选择了上海、北京、南京、台北、广州几个城市。
同样的,把“日期”也拖入筛选,并用(a,b)设置上下限。在这里,我们上限设置为“2020-01-31”,下限设置为“2020-01-01”。
通过上述设置,我们就可以得到2020年1月份上海、北京、南京、台北、广州这个几个城市最高温的平均数据。
这样前端计算的配置的方式已经完成。
2.2 预置数据的配置方式
假如我们已经事先预置好各城市的极大值、极小值、上四分位值、下四分位值和中位数。
那么直接拖入相应字段中即可出图:
通过预置数据,配置完相关字段后,也能同样配置出箱线图。