0%

小提琴图和箱线图

小提琴图(violin plot)是一种用于可视化数据分布的图表。它结合了箱线图和核密度图的优点,可以更直观地展示数据的分布情况和中位数、四分位数等统计量的位置。

小提琴图通常由两部分组成:中间的白点表示中位数,黑色的厚线表示四分位数范围,而外部的形状则是核密度估计的结果,类似于概率密度函数。不同小提琴之间的比较可以更好地呈现数据之间的差异和相似性。[1]

outside points:离群点 Upper Adjacent Value:上边界值 Third Quartile:第三四分位数 Median:中位数,第二四分位数 First Quartile :第一四分位数 Lower Adjacent Value:下边界值 *** 第一四分位数(Q 1):又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。 第二四分位数(Q 2):又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。 第三四分位数(Q 3):又称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)[2]

当有数值与第1与第3四分位数的范围差距1.5×IQR 以上时,该值为离群值(outlier)。 数值位于范围外1.5×IQR 到3×IQR 范围的数值,称作适度离群值(mild outlier)。 数值位于范围外3×IQR 以上的数值,称作极端离群值(extreme outlier)。

小提琴图除了显示上述的统计数据外,它还显示了数据的整体分布。

如果数据的四分位数保持不变,箱形图就不会改变。那么,我们可以对数据进行修改,使四分位数不发生变化,但分布的形状会发生很大的变化。下面的 GIF 图说明了这一点。

  • 在直方图中,我们看到分布的对称形状
  • 我们可以在箱形图和小提琴图中看到前面提到的指标(中位数、IQR)。
  • 用于创建小提琴图的核密度图与添加在直方图上的核密度图是一样的。小提琴图中较宽的部分代表观测值取值的概率较高,较窄的部分则对应于较低的概率。[3]

参考文章

+