上 四 分 位 數 下 四 分 位 數

四分位数

四分位数是把数列分成四等份的数值:

  • 把所有数值从小到大排列
  • 把数列分割成四等份
  • 在"分割点"位置的数值就是四分位数

如下:

例子:5、7、4、4、6、2、8

从小到大排列:2、4、4、5、6、7、8

分割成四等份:

结果是:

  • 第一四分位数(Q1) = 4
  • 第二四分位数(Q2),也是中位数, = 5
  • 第三四分位数(Q3) = 7

有时"分割点" 是在两个数之间……这时四分位数便是那两个数的平均值。

例子:1、3、3、4、5、6、6、7、8、8

已经是顺序排列了

分割成四等份:

上 四 分 位 數 下 四 分 位 數

四分位数 2 是在第 5 和第 6个数的正中间:

Q2 = (5+6)/2 = 5.5

结果是:

  • 第一四分位数(Q1) = 3
  • 第二四分位数(Q2) = 5.5
  • 第三四分位数(Q3) = 7

四分位距

"四分位距" 是从 Q1 到 Q3:

等于第三四分位数与第一四分位数的差

例子:

四分位距是:

Q3 − Q1 = 7 − 4 = 3

箱须图

我们可以用"箱须图"来显示这些重要的数值:

最后我们来看一个完整的例子:

例子:箱须图和四分位距

数据是 4、17、7、14、 18、12、3、16、10、4、4、11

从小到大排列:

3、4、4、4、7、10、11、12、14、16、17、18

分割成四等份

3、4、4 | 4、7、10 | 11、12、14 | 16、17、18

所有的四分位数都在数与数的中间:

  • 第一四分位数(Q1) = (4+4)/2 = 4
  • 第二四分位数(Q2) = (10+11)/2 = 10.5
  • 第三四分位数(Q3) = (14+16)/2 = 15

并且:

  • 最小值是 3
  • 最大值是 18

我们有充足的数据去画箱须图了:

四分位距是:

Q3 − Q1 = 15 − 4 = 11

一、定义:四分位数(Quartile)应用于统计学中的箱线图绘制,是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

二、如何理解四分位:中位数把数集分成两个50%,下四分位就是把前50%分成两个25%,上四分位就是把后50%,分成两个25%。

上 四 分 位 數 下 四 分 位 數
来源跟猴子学数据分析

三、如何计算四分位

假设数列一共有n个数

1)当 (n+1)/4可以整除时,

Q1第在(n+1)/4位

Q2第 (n+1)/2位

Q3第(n+1)/4*3位

举例 1 2 2 5 6 9 9 这个数列

Q1在第 (7+1)/4 =2 位,即Q1=2

Q2在第(7+1)/2=4位,即Q2=5

Q3在第(7+1)/4*3=6位,即Q3=9

2)当 (n+1)/4不能整除时

举例 数列 1 2 3 4 5 6 7 8

Q1在 (8+1)/4=2.25位, 介于第二和第三位之间,但是更靠近第二位。所以第二位数权重占75%,第三位数权重占25%。Q1=(2*0.75+3*0.25)/(0.75+0.25)=2.25

Q2在 (8+1)/2=4.5位,即第4和第5位的平均数,Q2=4.5

同理Q3在(8+1)/4*3=6.75位,在第六位和第七位之间,更靠近第7位。所以第7位权重75%,第6位权重25%。

Q3=(7*0.75+6*0.25)/(0.75+0.25)=6.75

再举例

上 四 分 位 數 下 四 分 位 數
来源一只猹的学习生活

四、四分为数据如何运用

1.绘制箱线图

中位数距离下四份位数较近,代表大部分数值在Q1和Q2之间

上 四 分 位 數 下 四 分 位 數
来源跟猴子学数据分析

比较不同类别数据集的整体情况

上 四 分 位 數 下 四 分 位 數
来源跟猴子学数据分析

2.剔除异常值

公式

最小估计值:Q1-k(Q3-Q1)

最大估计值: Q3+k(Q3-Q1)

K=1.5(中度异常)

K=3(极度异常)

当数值大于>最大估计值 或 数值小于<最小估计值,都记为异常

上 四 分 位 數 下 四 分 位 數
来源跟猴子学数据分析

图中小于67.75,大于73.75的数值都记为异常值。

四分位数(英語:Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的數值就是四分位数。

目录

  • 1 概念
  • 2 运算过程
  • 3 舉例
  • 4 應用
  • 5 參考文獻

概念[编辑]

  • 第一四分位数),又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。
  • 第二四分位数),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
  • 第三四分位数),又称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。

运算过程[编辑]

关于四分位数值的选择尚存争议[1]。

主要选择四分位的百分比值

上 四 分 位 數 下 四 分 位 數
,及样本总量有以下数学公式可以表示:[2]

  • 情况1:如果是一个整数,则取第和第的平均值
  • 情况2:如果不是一个整数,则取下一个最近的整数。(比如, 则取

舉例[编辑]

上 四 分 位 數 下 四 分 位 數

图示中箱形图(有四分位数及四分位距)和概率密度函数 为描述一个常规总量的分布情况

一个算法如下(可以兼用TI-83计算器):

  1. 利用中位数使数据分成两列(不要把中位数放入已分好的数列)。
  2. 第一四分位数为第一组数列的中位数;第三四分位数为第二组数列的中位数。

以下例子可以用来参考。

例1

数据总量:

由小到大排列的结果:

例2

数据总量:

例3

数据总量:

應用[编辑]

不論 的變異量數數值為何,均視為一個分界點,以此將總數分成四個相等部份,可以通过比较,分析其数据变量的趋势。

參考文獻[编辑]

  1. ^ Hyndman, Rob J; Fan, Yanan. Sample quantiles in statistical packages. American Statistician. November 1996, 50 (4): 361–365 [2020-01-19]. JSTOR 2684934. doi:10.2307/2684934. (原始内容存档于2017-01-25).
  2. ^ http://books.google.com/books?id=1LH6tNn6CYkC&printsec=frontcover&source=bl&ots=lOg76JIira&sig=Jp_OJYojlBs0LszvhIKuWkEjBuM&hl=en&ei=U4NdSszRLoqGsgPywYCxCg&sa=X&oi=book_result&ct=result&resnum=1

统计学

描述统计学

连续概率

集中趋势

平均数(平方 · 算術 · 幾何 · 調和 · 算术-几何 · 几何-调和 · 希羅/平均数不等式) · 中位數 · 眾數

离散程度

全距 · 变异系数 · 百分位數 · 四分位距 · 四分位数 · 標準差 · 方差 · 平均差 · 標準分數 · 切比雪夫不等式 · 基尼系数

分布形态英语Shape of the distribution

中心极限定理 · 矩(偏態 · 峰態)

离散概率

次數英语Count data · 列聯表英语Contingency table

上 四 分 位 數 下 四 分 位 數

推論統計學
和假說檢定

推論統計學

置信区间 · 區間估計英语Interval estimation · 显著性差异 · 元分析 · 贝叶斯推断

实验设计

总体 · 抽樣 · 重抽样(刀切法 · 自助法 · 交叉驗證) · 重复英语Replication (statistics) · 阻碍 · 靈敏度和特異度 · 區集英语Blocking (statistics) · 缺失数据

样本量英语Sample size

標準誤 · 零假设 · 备择假设 · 第一类错误与第二类错误 · 统计功效 · 效应值

常规估计

贝叶斯推断 · 區間估計英语Interval estimation · 最大似然估计 · 最小距離估計英语Minimum distance estimation · 矩估计 · 最大间距

假设检验

Z檢驗 · 学生t检验 · F檢定 · 卡方检验 · Wald檢定英语Wald test · 曼-惠特尼檢定英语Mann–Whitney U test · 秩和检验

生存分析

生存函数 · 乘積極限估計量 · 對數秩和檢定 · 失效率 · 危險比例模式

相關及
迴歸分析

相关性

干擾因素 · 皮尔逊積矩相關係數 · 等級相關英语Rank correlation (斯皮尔曼等级相关系数 · 肯德等級相關係數英语Kendall tau rank correlation coefficient) · 自由度 · 误差和残差

線性回歸

線性模型英语Linear model · 一般线性模型 · 廣義線性模型 · 简单线性回归英语Simple linear regression · 普通最小二乘法 · 贝叶斯回归英语Bayesian linear regression · 方差分析 · 协方差分析英语Analysis of covariance

非线性回归

非参数回归模型英语Nonparametric regression · 半参数回归模型英语Semiparametric regression · 邏輯迴歸

统计图形

饼图 · 条形图 · 双标图 · 箱形圖 · 管制圖 · 森林圖英语Forest plot · 直方图 · 分位圖 · 趋势图 · 散点图 · 莖葉圖英语Stem-and-leaf display · 雷达图英语Radar chart · 示意地圖

其他

回應過程效度 · 統計誤用

  • 上 四 分 位 數 下 四 分 位 數
    分类
  • 上 四 分 位 數 下 四 分 位 數
    主题
  • 上 四 分 位 數 下 四 分 位 數
    共享资源
  • 上 四 分 位 數 下 四 分 位 數
    专题