四分位数
四分位数是把数列分成四等份的数值:
- 把所有数值从小到大排列
- 把数列分割成四等份
- 在"分割点"位置的数值就是四分位数
如下:
例子:5、7、4、4、6、2、8
从小到大排列:2、4、4、5、6、7、8
分割成四等份:
结果是:
- 第一四分位数(Q1) = 4
- 第二四分位数(Q2),也是中位数, = 5
- 第三四分位数(Q3) = 7
有时"分割点" 是在两个数之间……这时四分位数便是那两个数的平均值。
例子:1、3、3、4、5、6、6、7、8、8
已经是顺序排列了
分割成四等份:
四分位数 2 是在第 5 和第 6个数的正中间:
Q2 = (5+6)/2 = 5.5
结果是:
- 第一四分位数(Q1) = 3
- 第二四分位数(Q2) = 5.5
- 第三四分位数(Q3) = 7
四分位距
"四分位距" 是从 Q1 到 Q3:
等于第三四分位数与第一四分位数的差:
例子:
四分位距是:
Q3 − Q1 = 7 − 4 = 3
箱须图
我们可以用"箱须图"来显示这些重要的数值:
最后我们来看一个完整的例子:
例子:箱须图和四分位距
数据是 4、17、7、14、 18、12、3、16、10、4、4、11
从小到大排列:
3、4、4、4、7、10、11、12、14、16、17、18
分割成四等份
3、4、4 | 4、7、10 | 11、12、14 | 16、17、18
所有的四分位数都在数与数的中间:
- 第一四分位数(Q1) = (4+4)/2 = 4
- 第二四分位数(Q2) = (10+11)/2 = 10.5
- 第三四分位数(Q3) = (14+16)/2 = 15
并且:
- 最小值是 3,
- 最大值是 18
我们有充足的数据去画箱须图了:
四分位距是:
Q3 − Q1 = 15 − 4 = 11
一、定义:四分位数(Quartile)应用于统计学中的箱线图绘制,是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
二、如何理解四分位:中位数把数集分成两个50%,下四分位就是把前50%分成两个25%,上四分位就是把后50%,分成两个25%。
三、如何计算四分位
假设数列一共有n个数
1)当 (n+1)/4可以整除时,
Q1第在(n+1)/4位
Q2第 (n+1)/2位
Q3第(n+1)/4*3位
举例 1 2 2 5 6 9 9 这个数列
Q1在第 (7+1)/4 =2 位,即Q1=2
Q2在第(7+1)/2=4位,即Q2=5
Q3在第(7+1)/4*3=6位,即Q3=9
2)当 (n+1)/4不能整除时
举例 数列 1 2 3 4 5 6 7 8
Q1在 (8+1)/4=2.25位, 介于第二和第三位之间,但是更靠近第二位。所以第二位数权重占75%,第三位数权重占25%。Q1=(2*0.75+3*0.25)/(0.75+0.25)=2.25
Q2在 (8+1)/2=4.5位,即第4和第5位的平均数,Q2=4.5
同理Q3在(8+1)/4*3=6.75位,在第六位和第七位之间,更靠近第7位。所以第7位权重75%,第6位权重25%。
Q3=(7*0.75+6*0.25)/(0.75+0.25)=6.75
再举例
四、四分为数据如何运用
1.绘制箱线图
中位数距离下四份位数较近,代表大部分数值在Q1和Q2之间
比较不同类别数据集的整体情况
2.剔除异常值
公式
最小估计值:Q1-k(Q3-Q1)
最大估计值: Q3+k(Q3-Q1)
K=1.5(中度异常)
K=3(极度异常)
当数值大于>最大估计值 或 数值小于<最小估计值,都记为异常
图中小于67.75,大于73.75的数值都记为异常值。
四分位数(英語:Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的數值就是四分位数。
目录
- 1 概念
- 2 运算过程
- 3 舉例
- 4 應用
- 5 參考文獻
概念[编辑]
- 第一四分位数(),又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。
- 第二四分位数(),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
- 第三四分位数(),又称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。
运算过程[编辑]
关于四分位数值的选择尚存争议[1]。
主要选择四分位的百分比值
- 情况1:如果是一个整数,则取第和第的平均值
- 情况2:如果不是一个整数,则取下一个最近的整数。(比如, 则取)
舉例[编辑]
图示中箱形图(有四分位数及四分位距)和概率密度函数 为描述一个常规总量的分布情况
一个算法如下(可以兼用TI-83计算器):
- 利用中位数使数据分成两列(不要把中位数放入已分好的数列)。
- 第一四分位数为第一组数列的中位数;第三四分位数为第二组数列的中位数。
以下例子可以用来参考。
例1数据总量:
由小到大排列的结果:
例2数据总量:
例3数据总量:
應用[编辑]
不論 的變異量數數值為何,均視為一個分界點,以此將總數分成四個相等部份,可以通过比较,分析其数据变量的趋势。
參考文獻[编辑]
- ^ Hyndman, Rob J; Fan, Yanan. Sample quantiles in statistical packages. American Statistician. November 1996, 50 (4): 361–365 [2020-01-19]. JSTOR 2684934. doi:10.2307/2684934. (原始内容存档于2017-01-25).
- ^ //books.google.com/books?id=1LH6tNn6CYkC&printsec=frontcover&source=bl&ots=lOg76JIira&sig=Jp_OJYojlBs0LszvhIKuWkEjBuM&hl=en&ei=U4NdSszRLoqGsgPywYCxCg&sa=X&oi=book_result&ct=result&resnum=1
| |||||||||||
| |||||||||||
| |||||||||||
饼图 · 条形图 · 双标图 · 箱形圖 · 管制圖 · 森林圖(英语:Forest plot) · 直方图 · 分位圖 · 趋势图 · 散点图 · 莖葉圖(英语:Stem-and-leaf display) · 雷达图(英语:Radar chart) · 示意地圖 | |||||||||||
回應過程效度 · 統計誤用 | |||||||||||
|