删一法回归
有许多统计程序——残差分析、折刀方差估计、交叉验证、两步估计、保留样本评估——它们利用在子样本上构建的估计器。特别重要的是我们排除单个观察然后对所有观察重复此操作的情况。这称为删一法 (LOO) 回归。
具体来说,回归系数 的删一估计量是使用不包括单个观测值 的完整样本构建的最小二乘估计量。这可以写成
这里, 和 是省略了 行的数据矩阵。符号 或 通常用于表示省略了 观察的估计量。每个观察值都有一个删一估计量,,所以我们有 这样的估计量。
的删一预测值为 。这是通过在没有观察 的情况下估计样本上的 ,然后使用协变量向量 预测 获得的预测值。请注意, 是真实的预测,因为 不用于构造 。这与作为 的函数的拟合值 形成对比。
删一残差、预测误差或预测残差是 。预测误差可以用作误差的估计量而不是残差。预测误差是比残差更好的估计量,因为前者是基于真实的预测。
删一法公式 式 1 给人的印象是删一法系数和误差在计算上很麻烦,需要 单独的回归。幸运的是,在线性回归的背景下,情况并非如此。 和 有简单的线性表达式。
式 2 表明,删一法系数可以通过简单的线性运算来计算,不需要使用 单独的回归来计算。方程 式 3 的另一个有趣特征是预测误差 是最小二乘残差 的简单缩放,缩放取决于影响力值 。如果 很小,那么 。但是,如果 很大,那么 可能与 完全不同。因此,残差和预测值之间的差异取决于影响力值,即 的异常程度。要将 式 3 写成矢量符号,定义
那么 式 3 等价于
预测误差的一种用途是估计样本外均方误差:
这称为样本均方预测误差。它的平方根 是预测标准误差。
论证 (删一法估计的证明). 我们用定理 3.7 的证明来完成本节。删一估计量 式 1 可以写为
将 式 6 乘以 。我们获得
重写
即 式 2。将此表达式预乘以 并使用影响力值的定义我们得到
使用 和 的定义,我们得到 。重写我们得到 式 3。