3.20: LOO回归
1 删一法回归
有许多统计程序——残差分析、折刀方差估计、交叉验证、两步估计、保留样本评估——它们利用在子样本上构建的估计器。特别重要的是我们排除单个观察然后对所有观察重复此操作的情况。这称为删一法 (LOO) 回归。
具体来说,回归系数 \(\beta\) 的删一估计量是使用不包括单个观测值 \(i\) 的完整样本构建的最小二乘估计量。这可以写成
\[ \begin{aligned} \widehat{\beta}_{(-i)} &=\left(\sum_{j \neq i} X_{j} X_{j}^{\prime}\right)^{-1}\left(\sum_{j \neq i} X_{j} Y_{j}\right) \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}-X_{i} X_{i}^{\prime}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}-X_{i} Y_{i}\right) \\ &=\left(\boldsymbol{X}_{(-i)}^{\prime} \boldsymbol{X}_{(-i)}\right)^{-1} \boldsymbol{X}_{(-i)}^{\prime} \boldsymbol{Y}_{(-i)} \end{aligned} \tag{1}\]
这里,\(\boldsymbol{X}_{(-i)}\) 和 \(\boldsymbol{Y}_{(-i)}\) 是省略了 \(i^{t h}\) 行的数据矩阵。符号 \(\widehat{\beta}_{(-i)}\) 或 \(\widehat{\beta}_{-i}\) 通常用于表示省略了 \(i^{t h}\) 观察的估计量。每个观察值都有一个删一估计量,\(i=1, \ldots, n\),所以我们有 \(n\) 这样的估计量。
\(Y_{i}\) 的删一预测值为 \(\widetilde{Y}_{i}=X_{i}^{\prime} \widehat{\beta}_{(-i)}\)。这是通过在没有观察 \(i\) 的情况下估计样本上的 \(\beta\),然后使用协变量向量 \(X_{i}\) 预测 \(Y_{i}\) 获得的预测值。请注意,\(\widetilde{Y}_{i}\) 是真实的预测,因为 \(Y_{i}\) 不用于构造 \(\widetilde{Y}_{i}\)。这与作为 \(Y_{i}\) 的函数的拟合值 \(Y_{i}\) 形成对比。
删一残差、预测误差或预测残差是 \(\widetilde{e}_{i}=Y_{i}-\widetilde{Y}_{i}\)。预测误差可以用作误差的估计量而不是残差。预测误差是比残差更好的估计量,因为前者是基于真实的预测。
删一法公式 式 1 给人的印象是删一法系数和误差在计算上很麻烦,需要 \(n\) 单独的回归。幸运的是,在线性回归的背景下,情况并非如此。 \(\widehat{\beta}_{(-i)}\) 和 \(\widetilde{e}_{i}\) 有简单的线性表达式。
1.1 删一估计量和预测误差公式
\[ \widehat{\beta}_{(-i)}=\widehat{\beta}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i} \widetilde{e}_{i} \tag{2}\]
和
\[ \widetilde{e}_{i}=\left(1-h_{i i}\right)^{-1} \widehat{e}_{i} \tag{3}\]
其中 \(h_{i i}\) 是影响力值。
式 2 表明,删一法系数可以通过简单的线性运算来计算,不需要使用 \(n\) 单独的回归来计算。方程 式 3 的另一个有趣特征是预测误差 \(\widetilde{e}_{i}\) 是最小二乘残差 \(\widehat{e}_{i}\) 的简单缩放,缩放取决于影响力值 \(h_{i i}\)。如果 \(h_{i i}\) 很小,那么 \(\widetilde{e}_{i} \simeq \widehat{e}_{i}\)。但是,如果 \(h_{i i}\) 很大,那么 \(\widetilde{e}_{i}\) 可能与 \(\widehat{e}_{i}\) 完全不同。因此,残差和预测值之间的差异取决于影响力值,即 \(n\) 的异常程度。要将 式 3 写成矢量符号,定义
\[ \begin{aligned} \boldsymbol{M}^{*} &=\left(\boldsymbol{I}_{n}-\operatorname{diag}\left\{h_{11}, . ., h_{n n}\right\}\right)^{-1} \\ &=\operatorname{diag}\left\{\left(1-h_{11}\right)^{-1}, \ldots,\left(1-h_{n n}\right)^{-1}\right\} \end{aligned} \]
那么 式 3 等价于
\[ \widetilde{\boldsymbol{e}}=\boldsymbol{M}^{*} \widehat{\boldsymbol{e}} \tag{4}\]
预测误差的一种用途是估计样本外均方误差:
\[ \widetilde{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n} \widetilde{e}_{i}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(1-h_{i i}\right)^{-2} \widehat{e}_{i}^{2} \tag{5}\]
这称为样本均方预测误差。它的平方根 \(\widetilde{\sigma}=\sqrt{\widetilde{\sigma}^{2}}\) 是预测标准误差。
论证 (删一法估计的证明). 我们用定理 3.7 的证明来完成本节。删一估计量 式 1 可以写为
\[ \widehat{\beta}_{(-i)}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}-X_{i} X_{i}^{\prime}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}-X_{i} Y_{i}\right) \tag{6}\]
将 式 6 乘以 \(\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}-X_{i} X_{i}^{\prime}\right)\)。我们获得
\[ \widehat{\beta}_{(-i)}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i} X_{i}^{\prime} \widehat{\beta}_{(-i)}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}-X_{i} Y_{i}\right)=\widehat{\beta}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i} Y_{i} . \]
重写
\[ \widehat{\beta}_{(-i)}=\widehat{\beta}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i}\left(Y_{i}-X_{i}^{\prime} \widehat{\beta}_{(-i)}\right)=\widehat{\beta}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i} \widetilde{e}_{i} \]
即 式 2。将此表达式预乘以 \(X_{i}^{\prime}\) 并使用影响力值的定义我们得到
\[ \begin{aligned} X_{i}^{\prime} \widehat{\beta}_{(-i)}&=X_{i}^{\prime} \widehat{\beta}-X_{i}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i} \widetilde{e}_{i}=X_{i}^{\prime} \widehat{\beta}-h_{i i} \widetilde{e}_{i}\\ Y_i - X_{i}^{\prime} \widehat{\beta}_{(-i)} &= Y_i - X_{i}^{\prime} \widehat{\beta} + h_{i i} \widetilde{e}_{i} \\ \widetilde{e}_{i} & = \widehat{e}_{i} + h_{i i} \widetilde{e}_{i} \\ \widetilde{e}_{i} &= (1- h_{ii})^{-1} \widehat{e}_{i} \end{aligned} \]
使用 \(\widehat{e}_{i}\) 和 \(\widetilde{e}_{i}\) 的定义,我们得到 \(\widetilde{e}_{i}=\widehat{e}_{i}+h_{i i} \widetilde{e}_{i}\)。重写我们得到 式 3。