Show
分析調查結果所牽涉的往往不只是建立和比較圖表而已。兩個數字的不同人人都看的出來,但要知道兩者之間的差異是否具有統計顯著性,就必須得多做一點功課了。 深入研究您的資料以後,您發現男性給的平均分數是 9,而女性給的平均分數是 12,您要怎麼知道這個 9 和 12 是否有顯著差異?這就要靠 t 檢定來計算了。 t 檢定是驗證兩個數字之間是否具有顯著差異的一種方法,它有幾種不同類型,每一種都有專屬的計算公式。 介紹三種最常用的 t 檢定1. 單樣本 t 檢定:檢驗一個群組的測量值平均數 (以這個例子來說就是淨推薦分數) 是否與您指定的值不同。 例如:貴公司的目標是要讓淨推薦分數 (NPS) 顯著高於業界標準的 5 分,而最近一次的調查顯示,貴公司的 NPS 是 10 分——這個 10 分與 5 分是否具有顯著差異? 2. 雙樣本 t 檢定:檢驗兩個群組的測量值平均數彼此之間是否有顯著差異。 例如:您假設男性給貴公司的 NPS 比女性給的還要低,結果調查顯示男性受訪者平均給了 9 分,而女性受訪者平均給了 12 分,請問這個 9 分與 12 分是否有顯著差異? 3. 成對 t 檢定:檢驗同一群組的兩次測量值的平均是否有顯著差異,也就是第一次和第二次測量獲得的平均值是否不同。 例如:您對同一群客戶進行了兩次調查,一次在四月,一次在五月。貴公司在兩次調查期間推出了新的廣告,您想知道的是:客戶給您的 NPS 在廣告推出前後是否有改變? 請注意,t 檢定固然能告訴您兩數字在統計上是否具有顯著差異,至於該差異對您來說是否有實際意義,還是必須由您自行判定。在樣本數量夠大的情況下,微小的差異可能也會具有統計顯著性。 如何進行 t 檢定1. 計算 t 檢定統計量: 2. 計算自由度: 3. 決定臨界值: 4. 比較 t
檢定統計量和臨界值的絕對值: 把全部的資料串起來讓我們再回頭來看一開始的例子:您的假設是「男性給貴公司的 NPS 比女性給的還要低」。調查顯示男性受訪者給平均給了 9 分,而女性受訪者平均給了 12 分,這個 9 分與 12 分有顯著差異嗎?要計算這題,我們必須使用雙樣本 t 檢定。
雙樣本 t 檢定中的自由度計算公式如下。其他類檢定的公式列在後面的段落中。 根據本表,某雙側檢定若 α 水準為 0.05 且自由度為 41,其臨界值為 2.02。請記得,大多數的分析師會使用雙側檢定而不是單側檢定,因為雙側檢定較為保守 (比較不容易顯著)。若要深入瞭解單側和雙側檢定的差別,請看這部 Khan Academy 的影片。 現在我們知道 t 檢定統計量的絕對值是 0.86,比臨界值 2.02 還小,因此男性受訪者給貴公司的 NPS 並沒有顯著地比女性受訪者所給的還要低。
其他 t 檢定的公式您大概會利用 Excel 試算表或 SPSS 之類的統計分析軟體進行 t 檢定,但如果您想要自己手動計算,另外兩種 t 檢定的公式如下。 如果您決定像大部分的人一樣,用試算表或統計分析軟體執行 t 檢定,計算過程可能會略有不同。大部分的統計分析軟體會計算 p 值,然後拿它來與 α 水準 (通常是 0.05) 作比較 (而不是計算 t 檢定統計量,然後與臨界值做比較)。在這種情況下,當 p 值小於α 水準,就表示您要比較的兩數值有顯著差異。 淨推薦分數 (Net Promoter Score) 是 Bain & Company, Inc.、Satmetrix Systems, Inc. 及 Fred Reichheld. 的商標。 讓 SurveyMonkey 滿足您的好奇心全文八千多字,不排除书写错误,文中几乎所有的公式都给出了详细的证明。第四条“回归系数的显著性检验”在附录中的详细证明会很繁琐和复杂,但若耐心看下去并独立地将全部结论都证明一遍,应该会有不小的收获。感谢您的阅读! 引子t检验(t test)又称学生t检验(Student t-test)可以说是统计推断中非常常见的一种检验方法,用于统计量服从正态分布,但方差未知的情况。 有关t检验的历史(以及学生t检验的由来)可以参考维基百科。 t检验的前提是要求样本服从正态分布或近似正态分布,不然可以利用一些变换(取对数、开根号、倒数等等)试图将其转化为服从正态分布是数据,如若还是不满足正态分布,只能利用非参数检验方法。不过当样本量大于30的时候,可以认为数据近似正态分布。 t检验最常见的四个用途:
1.单样本均值检验目的:检验单样本的均值是否和已知总体的均值相等。 要求:
应用场景举例:
检验原理: H_0:样本均值与总体均值相等 记总体均值为\mu,总体方差为\sigma^2(未知),样本均值\bar X=\frac{1}{n}\sum_{i=1}^nX_i,样本标准差s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2},有: \begin{aligned}X_i\sim N(\mu,\sigma^2) &\rightarrow \bar X =\frac{1}{n}\sum_{i=1}^{n}X_i\sim N(\mu,\frac{\sigma^2}{n})\\ &\rightarrow \frac{\bar X-\mu}{\frac{\sigma}{\sqrt n}}=\frac{\sqrt n(\bar X-\mu)}{\sigma}\sim N(0,1)\quad (1)\end{aligned} \\ 对于熟悉数理统计的朋友,上面这一条是显然的。下面我们试着构造出一个t统计量,我们知道t变量的构造定义是一个 分子为标准正态变量、分母为卡方变量除以它自由度后开根号 的分式。上面我们已经得到了一个标准正态变量,不难想到卡方变量的一个重要定理: \frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)\quad(2) (1)÷\sqrt{(2)/(n-1)}: \frac{\frac{\sqrt n(\bar X-\mu)}{\sigma}}{\sqrt\frac{{\frac{(n-1)s^2}{\sigma^2}}}{n-1}}=\frac{\sqrt n(\bar X-\mu)}{s}\sim t(n-1) \quad (3) 检验原理 在H_0成立的条件下,\bar X-\mu=0,若上述统计量的值偏离0“太多”,是小概率事件,在一次抽样中几乎不可能发生,其发生的概率即为p值。给定显著性水平\alpha(如0.05),根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查t界值表中自由度为n-1,双侧\alpha,得到临界值t_{\frac{\alpha}{2},n-1};若为单侧检验,则查t界值表中自由度为n-1,双侧\alpha,得到临界值t_{\alpha,n-1}。
2.两独立样本均值检验目的:检验两独立样本的均值是否相等。 要求:两样本独立,服从正态分布或近似正态。 应用场景举例:
记两总体分别为X_1\sim N(\mu_1,\sigma_1^2),X_2\sim N(\mu_2,\sigma_2^2),样本均值、样本标准差: \bar X_1=\frac{1}{n_1}\sum_{i=1}^{n_1}X_{1i},\quad \bar X_2=\frac{1}{n_2}\sum_{i=1}^{n_2}X_{2i} 根据总体方差是否相等可以分为两类 2.1总体方差相等且未知,样本方差满足\frac{1}{2}<\frac{s_1^2}{s_2^2}<2记总体方差为\sigma^2=\sigma_1^2=\sigma_2^2。 跟之前的思路类似,要检验两总体均值是否相等,先给出 样本均值的差 的分布,根据假设易得: \begin{aligned}&\quad\quad \bar X_1-\bar X_2\sim N\left(\mu_1-\mu_2,(\frac{1}{n_1}+\frac{1}{n_2})\sigma^2\right)\\&\rightarrow\frac{(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim N(0,1)\quad (4)\end{aligned} 由卡方变量的重要定理: \frac{(n_1-1)s_1^2}{\sigma^2}\sim\chi^2(n_1-1),\quad \frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_2-1) 由于两分布独立,则s_1^2,s_2^2独立,由卡方变量的可加性: \frac{(n_1-1)s_1^2}{\sigma^2}+\frac{(n_2-1)s_2^2}{\sigma^2}\sim\chi^2(n_1+n_2-2) \quad (5) 由t分布的构造定义,(4)÷\sqrt{(5)/(n_1+n_2-2)},化简整理后可以得到: \frac{(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) \quad (6) 其中: s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}=\sqrt{\frac{\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2+\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2}{n_1+n_2-2}}\quad(7) 为两样本的合并标准差(pooled standard deviation),可以证明它的方差,即两样本的合并方差是总体方差\sigma^2的无偏估计(unbiased estimator),证明见文末附录1。 同样地,在H_0成立的条件下,\mu_1-\mu_2=0。根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查t界值表中自由度为n-1,双侧\alpha,得到临界值t_{\frac{\alpha}{2},n-1};若为单侧检验,则查t界值表中自由度为n-1,双侧\alpha,得到临界值t_{\alpha,n-1}。 检验原理
2.2总体方差不等且未知(或者对它们一无所知),满足s_1^2>2s_2^2或s_2^2>2s_1^2在这种情况(来自正态总体的两独立样本,无法假定它们方差相等)下,如何进行区间估计和假设检验的这个问题是由Walter Behrens and Ronald Fisher提出来的,故称为Behrens–Fisher problem。对于这个问题的研究,Behrens和Fisher给出了他们的估计Behrens_and_Fisher_approach,而现在最常用的是Welch's_approximate_t_solution,它是Satterthwaite_equation的解。 回到我们的问题。这里要引入Welch's t test,又名Welch's unequal variances t-test、unequal variances t-test(不等方差t检验) 在总体方差不等的情况下,2.1中t统计量的分母已不是总体方差的无偏估计,已不再适用,需重新构造一个t统计量,这里需要利用Satterthwaite近似法。 取统计量: t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\quad(8) 它的自由度(df, degrees of freedom): \nu\approx\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{s_1^4}{n_1^2\nu_1}+\frac{s_2^4}{n_2^2\nu_2}}\quad(9) 其中\nu_1=n_1-1,\nu_2=n_2-1分别是X_1,X_2的自由度,当n_1,n_2>5时,近似t分布的效果比较好。 同样地,根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查t界值表中自由度为\nu,双侧\alpha,得到临界值t_{\frac{\alpha}{2},\nu};若为单侧检验,则查t界值表中自由度为\nu,单侧\alpha,得到临界值t_{\alpha,\nu}。 检验原理同2.1 3.配对样本均值检验这种情况常常出现在生物医学研究中,常见的情形有:
要求:
既然是配对设计,不妨设n=n_1=n_2;方差相等,有\sigma^2=\sigma_1^2=\sigma_2^2。取要检验的指标的差值d_i=X_{1i}-X_{2i},计算d_i的样本标准差s_d=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(d_i-\bar d)^2}。要检验配对样本均数的差是否为0,即检验d_i的均值是否为0,这样就转化为了“1.单样本t检验”,由于正态性和方差相等的假定,差值的均值(以大写字母表示随机变量,小写字母表示样本取值): \bar D=\bar X_1-\bar X_2\sim N(\mu_1-\mu_2,\frac{2\sigma^2}{n}) 从而: \frac{\bar D-(\mu_1-\mu_2)}{\sigma\sqrt\frac{2}{n}}\sim N(0,1)\quad(10) 构造\chi^2变量: \frac{(n-1)s_d}{\frac{2\sigma^2}{n}}\sim\chi^2(n-1)\quad(11) (10)÷\sqrt{(11)/(n-1)}化简整理得到: \begin{equation}\frac{\sqrt n\left(\bar D-(\mu_1-\mu_2)\right)}{s_d}\end{equation}\sim t(n-1) \quad(12) 同样地,在H_0成立的条件下,\mu_1-\mu_2=0。根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查t界值表中自由度为n-1,双侧\alpha,得到临界值t_{\frac{\alpha}{2},n-1};若为单侧检验,则查t界值表中自由度为n-1,双侧\alpha,得到临界值t_{\alpha,n-1}。 检验原理
注意,第2条和第3条两种检验不要误用,否则可能会得到错误的结论,参考文献[1]例7.2.4就是一个典型的例子,在此例中,配对检验消除了每一对自身的差异,若直接利用两独立样本检验,则无法消除这个差异,得到错误的结论。4.回归系数的显著性检验目的:检验回归模型的回归系数是否等于给定的值,一般取为0,此时检验的意义是检验该回归系数对应的解释变量对被解释变量是否有显著影响(因为若接受取值为0的假设,则该解释变量的项对被解释变量没有作用了)。 将多元线性回归模型: Y_i=\beta_0+\beta_1X_{1i}+\beta_2X_{2i}+\cdots+\beta_pX_{pi}+\varepsilon_i \quad(13) 写为矩阵形式: \boldsymbol {y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol\varepsilon \quad or\quad \boldsymbol {\hat y}=\boldsymbol{X}\boldsymbol{\hat \beta}\quad(14) 其中: \boldsymbol {y}=\left( \begin{matrix} y_1\\y_2\\\vdots\\y_n \end{matrix} \right)_{n×1},\quad\boldsymbol {X}=\left( \begin{matrix} 1&x_{11}&x_{12}&\cdots&x_{1p}\\1&x_{21}&x_{22}&\cdots&x_{2p}\\\vdots&\vdots&\vdots&&\vdots\\1&x_{n1}&x_{n2}&\cdots&x_{np} \end{matrix} \right)_{n×(p+1)} 其中\boldsymbol I_n为n阶单位方阵。方程满足\boldsymbol X满秩、Gauss-Markov条件、随机误差项服从正态分布等假定。 可以证明(见附录2.1): \boldsymbol {\hat \beta}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\quad(15) 其中D(\boldsymbol {\hat \beta})表示\boldsymbol {\hat \beta}的方差-协方差矩阵。在\boldsymbol {\varepsilon}服从正态分布的假定下,由于\boldsymbol{\beta}是常向量(回归模型背后蕴含的未知的规律),给定一组\boldsymbol X(\boldsymbol X可以看成变量,但不是随机变量,因为\boldsymbol X的取值是人为给定的),从而\boldsymbol \beta\boldsymbol X是常向量,从而 \boldsymbol {y}=\boldsymbol{\beta}\boldsymbol{X}+\boldsymbol\varepsilon\sim \boldsymbol N(\boldsymbol{\beta}\boldsymbol{X},\sigma^2\boldsymbol I_n)是正态变量。由(15),\boldsymbol {\hat \beta}是\boldsymbol y的线性函数,从而\boldsymbol {\hat \beta}也是正态变量,再由(16)、(17): \boldsymbol {\hat \beta}\sim \boldsymbol N(\boldsymbol {\beta},\sigma^2(\boldsymbol X^T\boldsymbol X)^{-1})\quad(18) 令(\boldsymbol X^T\boldsymbol X)^{-1}=(c_{ij}),\quad i,j=1,2,\cdots,p+1,从而: \hat\beta_{j-1}\sim N(\beta_{j-1},\sigma^2c_{{j-1},{j-1}})\rightarrow \frac{\hat\beta_{j-1}-\beta_{j-1}}{\sigma \sqrt{c_{{j-1},{j-1}}}}\sim N(0,1)\quad(19) 这样我们找到了一个标准正态变量,为了构造一个t统计量,接着就是要寻找一个与之独立的卡方变量,这一步是最难的,我们在这里直接给出来,(20)的证明见附录2.3。两者独立的证明见附录2.4。 \frac{\hat \sigma^2(n-p-1)}{\sigma^2}\sim \chi^2(n-p-1)\quad(20) 其中\hat\sigma^2=\frac{SSE}{n-p-1}=\frac{\sum_{i=1}^n e_i^2}{n-p-1}是\sigma^2的无偏估计(证明见附录2.2)。 根据t分布的构造定义,由(19)/\sqrt{(20)/(n-p-1)}得: \frac{\hat\beta_{j-1}-\beta_{j-1}}{\hat\sigma \sqrt{c_{{j-1},{j-1}}}}\sim t(n-p-1)\quad j=1,2,\dots,p+1\quad(21) 一般要检验解释变量X_j对被解释变量Y是否有显著影响,也即检验回归系数\hat\beta_{j-1}是否显著不为0,在这种情况下取\beta_{j-1}=0。而在一般情况下,要检验回归系数\hat\beta_{j-1}是否等于给定的\beta_{j-1}就有: H_0:\hat \beta_{j-1}等于\beta_{j-1} 取显著性水平\alpha,查得自由度为n-p-1的双侧\alpha的t界值t_{\frac{\alpha}{2},n-p-1}。若计算出来的t统计量的绝对值\left|\frac{\hat\beta_{j-1}-\beta_{j-1}}{\hat\sigma \sqrt{c_{jj}}}\right|>t_{\frac{\alpha}{2},n-p-1},则拒绝原假设,认为\hat \beta_{j-1}不等于\beta_{j-1},否则不拒绝原假设。绝大多数情况都是取\beta_{j-1}=0。 附录1 合并方差是总体方差的无偏估计 的证明 “加一项减一项”是很多数理统计证明题的灵魂,这里就用到了这个技巧。对于X_1: \begin{aligned}\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2&=\sum_{i=1}^{n_1}[(X_{1i}-\mu_1)-(\bar X_1-\mu_1)]^2\\&=\sum_{i=1}^{n_1}(X_{1i}-\mu_1)^2-2(\bar X_1-\mu_1)\sum_{i=1}^{n_1}(X_{1i}-\mu_1)+n_1(\bar X_1-\mu_1)^2\\&=\sum_{i=1}^{n_1}(X_{1i}-\mu_1)^2-n_1(\bar X_1-\mu_1)^2\end{aligned} 由于: \mu_1=E(X_{1i})=E(\bar X) 从而: \begin{aligned}E\left(\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2\right)&=E\left(\sum_{i=1}^{n_1}(X_{1i}-\mu_1)^2-n_1(\bar X_1-\mu_1)^2\right)\\&=\sum_{i=1}^{n_1}E(X_{1i}-\mu_1)^2-n_1E(\bar X_1-\mu_1)^2\\&=\sum_{i=1}^{n_1}E\left(X_{1i}-E(X_{1i})\right)^2-n_1E(\bar X_1-E(\bar X_1))^2\\&=\sum_{i=1}^{n_1}Var(X_{1i})-n_1Var(\bar X_{1})\\&=n_1\sigma^2-n_1\frac{\sigma^2}{n_1}\\&=(n_1-1)\sigma^2\end{aligned} 同理,对于X_{2}: \begin{aligned}E\left(\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2\right)=(n_2-1)\sigma^2\end{aligned} 从而证明了是无偏估计: \begin{aligned}E(s_p^2)&=E\left(\frac{\sum_{i=1}^{n_1}(X_{1i}-\bar X_1)^2+\sum_{i=1}^{n_2}(X_{2i}-\bar X_2)^2}{n_1+n_2-2}\right)\\&=\frac{(n_1+n_2-2)\sigma^2}{n_1+n_2-2}\\&=\sigma^2\end{aligned} 附录2.1 (15)-(17) 的证明 先证明(15)。这里介绍一个很方便的求\boldsymbol \beta的估计值的方法,不过要熟悉矩阵的运算,而且要首先给出三个引理: Lemma 1 向量求导法则 \forall\boldsymbol A\in \mathbb R^{n×p},\boldsymbol X\in \mathbb R^{p},有: 第一个等式右边一定要记得转置,第二个等式可以类比一元函数求导:(x^2)'=2x Lemma 2 复合向量函数求导法则 若\boldsymbol Z(\boldsymbol Y)是\boldsymbol Y的向量函数,\boldsymbol Y(\boldsymbol X)是\boldsymbol X的向量函数,则: \frac{\partial\boldsymbol Z}{\partial \boldsymbol X}=\frac{\partial\boldsymbol Y}{\partial \boldsymbol X}\boldsymbol·\frac{\partial\boldsymbol Z}{\partial \boldsymbol Y} 等式右边的求导顺序一定不能反。 Lemma 3 对于下式左边,由前两个引理,不妨将(\boldsymbol A\boldsymbol X)^T\boldsymbol A\boldsymbol X视为Lemma2中的\boldsymbol Z(\boldsymbol Y),\boldsymbol A\boldsymbol X视为\boldsymbol Y(\boldsymbol X),易得: \begin{aligned}\frac{\partial\left((\boldsymbol A\boldsymbol X)^T\boldsymbol A\boldsymbol X\right)}{\partial \boldsymbol X}&=\frac{\partial(\boldsymbol A\boldsymbol X)}{\partial \boldsymbol X}\frac{\partial\left((\boldsymbol A\boldsymbol X)^T\boldsymbol A\boldsymbol X\right)}{\partial(\boldsymbol A\boldsymbol X)}\\&=\boldsymbol A^T·2\boldsymbol A\boldsymbol X\\&=2\boldsymbol A^T\boldsymbol A\boldsymbol X\end{aligned} 接着我们定义残差e_i=y_i-\hat y_i,从而残差向量: \left(\begin{matrix}e_1\\e_2\\\vdots\\e_n\end{matrix}\right):=\boldsymbol e=\boldsymbol y-\boldsymbol {\hat y}=\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta} 根据最小二乘估计(Least Square Estimation, LSE),要求\boldsymbol{\hat\beta},即求使得\sum_{i=1}^ne_i^2最小的\boldsymbol{\hat\beta}。 \begin{aligned}\sum_{i=1}^ne_i^2&=\left(\begin{matrix}e_1,e_2,\cdots,e_n\end{matrix}\right)\boldsymbol·\left(\begin{matrix}e_1\\e_2\\\vdots\\e_n\end{matrix}\right)\\&=\boldsymbol e^T\boldsymbol e\\&=(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})^T(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})\end{aligned} 根据Lemma 3的结论: \begin{aligned}\frac{\partial\left(\sum_{i=1}^ne_i^2\right)}{\partial\boldsymbol {\hat\beta}}&=\frac{\partial\left((\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})^T(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})\right)}{\partial\boldsymbol {\hat\beta}}\\&=-2\boldsymbol X^T(\boldsymbol y-\boldsymbol X\boldsymbol \beta)\end{aligned} 令上式等于0,得到: \begin{aligned}-2\boldsymbol X^T(\boldsymbol y-\boldsymbol X\boldsymbol \beta)&=0\\\rightarrow\boldsymbol X^T\boldsymbol y &=\boldsymbol X^T\boldsymbol X\boldsymbol \beta\\\rightarrow\boldsymbol {\hat\beta}&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\quad (两边同乘(\boldsymbol X^T\boldsymbol X)^{-1})\end{aligned} 接着证明(16): \begin{aligned}E(\hat {\boldsymbol \beta})&=E\left[(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\right]\\&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol E(y)\\&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol X{\boldsymbol \beta}\\&={\boldsymbol \beta}\end{aligned} 为了证明(17),先给出一个引理: Lemma 4 若Var(\boldsymbol y)=\sigma^2\boldsymbol I_n,\boldsymbol {c}=\left( \begin{matrix} c_1\\c_2\\\vdots\\c_n \end{matrix} \right)_{n×1}\in\mathbb R^n,则: 利用该引理: \begin{aligned}D(\hat {\boldsymbol \beta})&=Cov(\hat {\boldsymbol \beta},\hat {\boldsymbol \beta})\\&=Cov\left[(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y,(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\right]\\&=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·\sigma^2\boldsymbol I_n·\left[(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right]^T\\&=\sigma^2·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\\&=\sigma^2(\boldsymbol X^T\boldsymbol X)^{-1}\end{aligned} 附录2.2 \hat\sigma^2=\frac{\sum_{i=1}^n e_i^2}{n-p-1}是\sigma^2 的无偏估计的证明 这里要对于矩阵取方差-协方差的运算给出引理: Lemma 5 设\boldsymbol A\in \mathbb R^{m×n}为常矩阵,\boldsymbol y\in \mathbb R^{n×1}为随机向量,则\boldsymbol A \boldsymbol y的方差-协方差矩阵: D(\boldsymbol A \boldsymbol y)=\boldsymbol AD(\boldsymbol y)\boldsymbol A^T 在附录2.1中我们得到了\boldsymbol{\hat\beta}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y,从而: \begin{aligned}\boldsymbol e&=\boldsymbol y-\boldsymbol {\hat y}\\&=\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta}\\&=\boldsymbol y-\boldsymbol {X}(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol y\\&=\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \right)\boldsymbol y\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol y\quad \left(\mathrm{Let}\,\boldsymbol H=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\end{aligned} 上式中的H=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T称为帽子矩阵,因为它作用在\boldsymbol y上就得到了\boldsymbol {\hat y},就像给\boldsymbol y戴了一顶帽子。\boldsymbol I是\boldsymbol I_n的简写。现在证明两个很重要的结论:
稍安勿躁,现在求\boldsymbol e的期望: \begin{aligned}E(\boldsymbol e)&=E(\boldsymbol y-\boldsymbol {X}\boldsymbol {\hat \beta})\\&=\boldsymbol y-\boldsymbol XE(\boldsymbol {\hat \beta})\\&=\boldsymbol y-\boldsymbol X\boldsymbol \beta\\&=\boldsymbol 0\end{aligned} 从而E(e_i)=0,\quad i=1,2,\cdots,n 再求\boldsymbol e的方差-协方差矩阵,由Lemma 4: \begin{aligned}D(\boldsymbol e)&=D\left((\boldsymbol I-\boldsymbol H)\boldsymbol y\right)\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol·D(\boldsymbol y)\boldsymbol·(\boldsymbol I-\boldsymbol H)^T\end{aligned} 在正文中已证明了D(\boldsymbol y)=\sigma^2\boldsymbol I,从而 \begin{aligned}D(\boldsymbol e)&=(\boldsymbol I-\boldsymbol H)D(\boldsymbol y)(\boldsymbol I-\boldsymbol H)^T\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol·\sigma^2\boldsymbol I\boldsymbol·(\boldsymbol I-\boldsymbol H)^T\\&=\sigma^2\boldsymbol I\boldsymbol·(\boldsymbol I-\boldsymbol H)\boldsymbol·(\boldsymbol I-\boldsymbol H)^T\\&=\sigma^2(\boldsymbol I-\boldsymbol H)\boldsymbol ·(\boldsymbol I-\boldsymbol H)\\&=\sigma^2(\boldsymbol I-\boldsymbol H)\end{aligned} 记\boldsymbol H=(h_{ij}),\quad i,j=1,2,\cdots,n。从而Var(e_i)=\sigma^2(1-h_{ii}),\quad i=1,2,\cdots,n 现在来看一下\boldsymbol H的迹,也即对角线元素之和,需要用到性质:tr(\boldsymbol A\boldsymbol B)=tr(\boldsymbol B\boldsymbol A): \begin{aligned}\sum_{i=1}^nh_{ii}&=tr(\boldsymbol H)\\&=tr\left(\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=tr\left((\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol X\right)\\&=tr(\boldsymbol I_{p+1})\\&=p+1\end{aligned} 现在就可以回到原来的问题,证明\hat\sigma^2=\frac{\sum_{i=1}^n e_i^2}{n-p-1}是\sigma^2的无偏估计: \begin{aligned}E\left(\frac{\sum_{i=1}^n e_i^2}{n-p-1}\right)&=\frac{1}{n-p-1}\sum_{i=1}^nE(e_i^2)\\&=\frac{1}{n-p-1}\sum_{i=1}^n[E(e_i^2)-0]\\&=\frac{1}{n-p-1}\sum_{i=1}^n[E(e_i^2)-E(e_i)]\\&=\frac{1}{n-p-1}\sum_{i=1}^nVar(e_i)\\&=\frac{1}{n-p-1}\sum_{i=1}^n\sigma^2(1-h_{ii})\\&=\frac{\sigma^2}{n-p-1}\left(n-\sum_{i=1}^{n}h_{ii}\right)\\&=\frac{\sigma^2}{n-p-1}(n-p-1)\\&=\sigma^2\end{aligned} 附录2.3 证明\frac{\hat \sigma^2(n-p-1)}{\sigma^2}\sim \chi^2(n-p-1) 首先,记\boldsymbol y^*=\boldsymbol y-\boldsymbol X\boldsymbol\beta\sim \boldsymbol N(\boldsymbol 0,\sigma^2\boldsymbol I),利用“\boldsymbol H \boldsymbol X=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T \boldsymbol X=\boldsymbol X”的性质得到: \begin{aligned}\boldsymbol e&=\boldsymbol y-\boldsymbol{\hat y}\\&=(\boldsymbol y-\boldsymbol X\boldsymbol \beta)-(\boldsymbol{\hat y}-\boldsymbol X\boldsymbol \beta)\\&=\boldsymbol y^*-(\boldsymbol H\boldsymbol y-\boldsymbol H\boldsymbol X\boldsymbol \beta)\\&=\boldsymbol y^*-\boldsymbol H(\boldsymbol y-\boldsymbol X\boldsymbol \beta)\\&=\boldsymbol y^*-\boldsymbol H\boldsymbol y^*\\&=(\boldsymbol I-\boldsymbol H)\boldsymbol y^*\end{aligned} 从而: \begin{aligned}\hat \sigma^2(n-p-1)&=\boldsymbol e^T \boldsymbol e\\&=\boldsymbol (y^{*})^T(\boldsymbol I- \boldsymbol H)^T\boldsymbol · (\boldsymbol I-\boldsymbol H)\boldsymbol y^*\\&=(y^{*})^T(\boldsymbol I-\boldsymbol H)\boldsymbol y^*\end{aligned} 由于\boldsymbol I-\boldsymbol H为幂等阵,故存在一个对角矩阵 \begin{aligned}\Lambda_r&=\mathrm{diag}(\underbrace{1,1,\cdots,1}_{r个1},\underbrace{0,0,\cdots,0}_{n-r个0})\\&=\left(\begin{matrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&&0&&\\&&&&\ddots&\\&&&&&0\end{matrix}\right)\end{aligned} 和正交矩阵\boldsymbol P(满足\boldsymbol P\boldsymbol P^T=\boldsymbol P^T\boldsymbol P =\boldsymbol I),使得: \boldsymbol I-\boldsymbol H=\boldsymbol P^T\boldsymbol \Lambda_r\boldsymbol P 由此关系重新考虑\boldsymbol I-\boldsymbol H的迹可以得到r的值: n-p-1=tr(\boldsymbol I-\boldsymbol H)=tr(\boldsymbol P^T\boldsymbol \Lambda_r\boldsymbol P)=tr(\boldsymbol \Lambda_r\boldsymbol P\boldsymbol P^T)=tr(\boldsymbol \Lambda_r)=r 另一方面,令\boldsymbol Z=\boldsymbol P\boldsymbol y^*,利用矩阵乘法以及期望的线性性质容易得到(这也是多元统计分析里的基本结论): E(\boldsymbol Z)=E(\boldsymbol P\boldsymbol y^*)=\boldsymbol PE(\boldsymbol y^*)=\boldsymbol P\boldsymbol ·\boldsymbol 0=\boldsymbol 0 再由Lemma 4: \begin{aligned}D(\boldsymbol Z)&=D(\boldsymbol P\boldsymbol y^*)\\&=\boldsymbol P D(\boldsymbol y^*)\boldsymbol P^T\\&=\boldsymbol P \boldsymbol·\sigma^2\boldsymbol I\boldsymbol·\boldsymbol P^T\\&=\sigma^2\boldsymbol I\boldsymbol ·\boldsymbol P\boldsymbol P^T\\&=\sigma^2\boldsymbol I\end{aligned} 由于\boldsymbol Z为正态变量\boldsymbol y^*的线性函数,故\boldsymbol Z也为正态变量,取它的每一个分量z_i\sim N(0,\sigma^2),\quad i=1,2,\cdots,n。从而: \frac{z_i}{\sigma}\sim N(0,1)\rightarrow \frac{z_i^2}{\sigma^2}\sim \chi^2(1) 再回到对\sigma^2(n-p-1)的探究上: \begin{aligned}\sigma^2(n-p-1)&=(y^{*})^T(\boldsymbol I-\boldsymbol H)\boldsymbol y^*\\&=(y^{*})^T(\boldsymbol P^T\boldsymbol \Lambda_r\boldsymbol P)\boldsymbol y^*\\&=(\boldsymbol P\boldsymbol y^*)^T\boldsymbol \Lambda_r(\boldsymbol P\boldsymbol y^*)\\&=\boldsymbol Z^T \boldsymbol \Lambda_r\boldsymbol Z\\&=\left(\begin{matrix}z_1,z_2,\cdots,z_n\end{matrix}\right)\left(\begin{matrix}1&&&&&\\&\ddots&&&&\\&&1&&&\\&&&0&&\\&&&&\ddots&\\&&&&&0\end{matrix}\right)\left(\begin{matrix}z_1\\z_2\\\vdots\\z_n\end{matrix}\right)\\&=\sum_{i=1}^rz_i^2\end{aligned} 最后利用卡方分布的可加性我们证明了结论: \begin{aligned}\frac{\hat \sigma^2(n-p-1)}{\sigma^2}&=\frac{\sum_{i=1}^rz_i^2}{\sigma^2}\\&=\sum_{i=1}^{n-p-1}\frac{z_i^2}{\sigma^2}\quad(r=n-p-1)\\&\sim \chi^2(n-p-1)\end{aligned} 其实这里 \Lambda_r 的秩 rank(\Lambda_r)=r 恰恰就是卡方变量的自由度,这也是自由度与矩阵的关系。 附录2.4 标准正态变量与卡方变量的独立性的证明 要证\hat\beta_j与\frac{\hat \sigma^2(n-p-1)}{\sigma^2}的独立性,由于\hat\sigma^2=\frac{\sum_{i=1}^n e_i^2}{n-p-1},我们来考察\hat {\boldsymbol \beta}与\boldsymbol e的关系,为了计算它们的协方差,我们首先给出一个引理: Lemma 5 若Var(\boldsymbol y)=\sigma^2\boldsymbol I_n,\boldsymbol {c}=\left( \begin{matrix} c_1\\c_2\\\vdots\\c_n \end{matrix} \right)_{n×1}\in\mathbb R^n,则: 根据Lemma 5: \begin{aligned}Cov(\hat {\boldsymbol \beta},\boldsymbol e)&=Cov\left((\boldsymbol X^T\boldsymbol X)^{-1}X^T\boldsymbol y,(\boldsymbol I\boldsymbol -\boldsymbol H)\boldsymbol y\right)\\&=\sigma^2·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·(\boldsymbol I-\boldsymbol H)\\&=\sigma^2·(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·\left(\boldsymbol I-\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=\sigma^2·\left((\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T-(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T·\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=\sigma^2·\left((\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T-(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\right)\\&=0\end{aligned} 说明\hat {\boldsymbol \beta}与\boldsymbol e不相关。由于它们都是正态变量,两正态变量不相关等价于独立,且两独立变量的函数变量也相互独立。而\hat \sigma^2=\frac{\sum e_i^2}{n-p-1}=\frac{\boldsymbol e^T\boldsymbol e}{n-p-1}是\boldsymbol e的函数。从而\hat{\boldsymbol \beta}与\hat \sigma^2独立,从而标准正态分布与卡方变量独立。自此,t检验的原理结束了。 后记这样一篇八千多字的文章写了我一天多的时间,查阅资料并学习花了半天多,打出来又花了半天多,主要还是打公式太耗时间了。这样系统地梳理了一遍t检验的原理,应该给出的、教材上缺失的证明我几乎都给出来了,虽然很多证明都不难(除了回归系数那个),而且也有资料可查,但是花一天多的时间系统地梳理一遍还是挺费心思的,也能够对加深对t检验的理解。 参考文献[1]茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].高等教育出版社:北京,2011:284-291,368-369,371-375. [2]何晓群,刘文卿.应用回归分析[M].中国人民大学出版社:北京,2001:59-64. [3]王炳顺等.医学统计学及SAS应用[M].上海交通大学出版社:上海,2009:68-77. [4]https://en.wikipedia.org/wiki/Student%27s_t-test 更新日志 2020.9.26 修改了一些错误并增加附录2.4:标准正态变量与卡方变量独立性的证明 2020.9.27 增加(16),(17)的证明,修改了beta的角标问题 |