3.20: LOO回归

1 删一法回归

有许多统计程序——残差分析、折刀方差估计、交叉验证、两步估计、保留样本评估——它们利用在子样本上构建的估计器。特别重要的是我们排除单个观察然后对所有观察重复此操作的情况。这称为删一法 (LOO) 回归。

具体来说，回归系数 $β$ 的删一估计量是使用不包括单个观测值 $i$ 的完整样本构建的最小二乘估计量。这可以写成

$\begin{matrix} (1) & \begin{aligned} {\hat{β}}_{(- i)} & = {(\sum_{j \neq i} X_{j} X_{j}^{'})}^{- 1} (\sum_{j \neq i} X_{j} Y_{j}) \\ = {(X^{'} X - X_{i} X_{i}^{'})}^{- 1} (X^{'} Y - X_{i} Y_{i}) \\ = {(X_{(- i)}^{'} X_{(- i)})}^{- 1} X_{(- i)}^{'} Y_{(- i)} \end{aligned} \end{matrix}$

这里， $X_{(- i)}$ 和 $Y_{(- i)}$ 是省略了 $i^{t h}$ 行的数据矩阵。符号 ${\hat{β}}_{(- i)}$ 或 ${\hat{β}}_{- i}$ 通常用于表示省略了 $i^{t h}$ 观察的估计量。每个观察值都有一个删一估计量， $i = 1, \dots, n$ ，所以我们有 $n$ 这样的估计量。

$Y_{i}$ 的删一预测值为 ${\tilde{Y}}_{i} = X_{i}^{'} {\hat{β}}_{(- i)}$ 。这是通过在没有观察 $i$ 的情况下估计样本上的 $β$ ，然后使用协变量向量 $X_{i}$ 预测 $Y_{i}$ 获得的预测值。请注意， ${\tilde{Y}}_{i}$ 是真实的预测，因为 $Y_{i}$ 不用于构造 ${\tilde{Y}}_{i}$ 。这与作为 $Y_{i}$ 的函数的拟合值 $Y_{i}$ 形成对比。

删一残差、预测误差或预测残差是 ${\tilde{e}}_{i} = Y_{i} - {\tilde{Y}}_{i}$ 。预测误差可以用作误差的估计量而不是残差。预测误差是比残差更好的估计量，因为前者是基于真实的预测。

删一法公式式 1 给人的印象是删一法系数和误差在计算上很麻烦，需要 $n$ 单独的回归。幸运的是，在线性回归的背景下，情况并非如此。 ${\hat{β}}_{(- i)}$ 和 ${\tilde{e}}_{i}$ 有简单的线性表达式。

1.1 删一估计量和预测误差公式

$\begin{matrix} (2) & {\hat{β}}_{(- i)} = \hat{β} - {(X^{'} X)}^{- 1} X_{i} {\tilde{e}}_{i} \end{matrix}$

和

$\begin{matrix} (3) & {\tilde{e}}_{i} = {(1 - h_{i i})}^{- 1} {\hat{e}}_{i} \end{matrix}$

其中 $h_{i i}$ 是影响力值。

式 2 表明，删一法系数可以通过简单的线性运算来计算，不需要使用 $n$ 单独的回归来计算。方程式 3 的另一个有趣特征是预测误差 ${\tilde{e}}_{i}$ 是最小二乘残差 ${\hat{e}}_{i}$ 的简单缩放，缩放取决于影响力值 $h_{i i}$ 。如果 $h_{i i}$ 很小，那么 ${\tilde{e}}_{i} ≃ {\hat{e}}_{i}$ 。但是，如果 $h_{i i}$ 很大，那么 ${\tilde{e}}_{i}$ 可能与 ${\hat{e}}_{i}$ 完全不同。因此，残差和预测值之间的差异取决于影响力值，即 $n$ 的异常程度。要将式 3 写成矢量符号，定义

$\begin{aligned} M^{*} & = {(I_{n} - diag {h_{11}, . ., h_{n n}})}^{- 1} \\ = diag {{(1 - h_{11})}^{- 1}, \dots, {(1 - h_{n n})}^{- 1}} \end{aligned}$

那么式 3 等价于

$\begin{matrix} (4) & \tilde{e} = M^{*} \hat{e} \end{matrix}$

预测误差的一种用途是估计样本外均方误差：

$\begin{matrix} (5) & {\tilde{σ}}^{2} = \frac{1}{n} \sum_{i = 1}^{n} {\tilde{e}}_{i}^{2} = \frac{1}{n} \sum_{i = 1}^{n} {(1 - h_{i i})}^{- 2} {\hat{e}}_{i}^{2} \end{matrix}$

这称为样本均方预测误差。它的平方根 $\tilde{σ} = \sqrt{{\tilde{σ}}^{2}}$ 是预测标准误差。

论证 (删一法估计的证明). 我们用定理 3.7 的证明来完成本节。删一估计量式 1 可以写为

$\begin{matrix} (6) & {\hat{β}}_{(- i)} = {(X^{'} X - X_{i} X_{i}^{'})}^{- 1} (X^{'} Y - X_{i} Y_{i}) \end{matrix}$

将式 6 乘以 ${(X^{'} X)}^{- 1} (X^{'} X - X_{i} X_{i}^{'})$ 。我们获得

${\hat{β}}_{(- i)} - {(X^{'} X)}^{- 1} X_{i} X_{i}^{'} {\hat{β}}_{(- i)} = {(X^{'} X)}^{- 1} (X^{'} Y - X_{i} Y_{i}) = \hat{β} - {(X^{'} X)}^{- 1} X_{i} Y_{i} .$

重写

${\hat{β}}_{(- i)} = \hat{β} - {(X^{'} X)}^{- 1} X_{i} (Y_{i} - X_{i}^{'} {\hat{β}}_{(- i)}) = \hat{β} - {(X^{'} X)}^{- 1} X_{i} {\tilde{e}}_{i}$

即式 2。将此表达式预乘以 $X_{i}^{'}$ 并使用影响力值的定义我们得到

$\begin{aligned} X_{i}^{'} {\hat{β}}_{(- i)} & = X_{i}^{'} \hat{β} - X_{i}^{'} {(X^{'} X)}^{- 1} X_{i} {\tilde{e}}_{i} = X_{i}^{'} \hat{β} - h_{i i} {\tilde{e}}_{i} \\ Y_{i} - X_{i}^{'} {\hat{β}}_{(- i)} & = Y_{i} - X_{i}^{'} \hat{β} + h_{i i} {\tilde{e}}_{i} \\ {\tilde{e}}_{i} & = {\hat{e}}_{i} + h_{i i} {\tilde{e}}_{i} \\ {\tilde{e}}_{i} & = (1 - h_{i i})^{- 1} {\hat{e}}_{i} \end{aligned}$

使用 ${\hat{e}}_{i}$ 和 ${\tilde{e}}_{i}$ 的定义，我们得到 ${\tilde{e}}_{i} = {\hat{e}}_{i} + h_{i i} {\tilde{e}}_{i}$ 。重写我们得到式 3。