3.15: 矩阵符号

1 模型矩阵

对于许多目的,包括计算,用矩阵表示法编写模型和统计数据很方便。

n 个下列线性方程构成了一个 n 方程组。

(1)Yi=Xiβ+ei

我们可以将这些 n 方程堆叠在一起作为

Y1=X1β+e1Y2=X2β+e2Yn=Xnβ+en.

定义

Y=(Y1Y2Yn),X=(X1X2Xn),e=(e1e2en)

观察 Yen×1 向量,Xn×k 矩阵。 n 方程组可以紧凑地写成单个方程

(2)Y=Xβ+e

样本总和可以用矩阵表示法编写。例如

i=1nXiXi=XXi=1nXiYi=XY.

因此最小二乘估计量可以写成

β^=(XX)1(XY)

式 2 的估计版本是

Y=Xβ^+e^

等价的残差向量是

e^=YXβ^

使用残差向量,我们可以将 (3.16) 写为

Xe^=0

将误差平方和标准写为

SSE(β)=(YXβ)(YXβ).

使用矩阵表示法,我们对大多数估计器都有简单的表达式。这对于计算机编程特别方便,因为大多数语言都允许矩阵表示法和操作。

定理 1 (重要的矩阵表达式) β^=(XX)1(XY)e^=YXβ^Xe^=0.

2 投影矩阵

定义矩阵

P=X(XX)1X

请注意

PX=X(XX)1XX=X.

这是投影矩阵的属性。更一般地,对于任何矩阵 Z 可以写成 Z=XΓ 对于某个矩阵 Γ (我们说 Z 位于 X 的范围空间中),然后

PZ=PXΓ=X(XX)1XXΓ=XΓ=Z.

举一个重要的例子,如果我们将矩阵 X 划分为两个矩阵 X1X2,那么 X=[X1X2] 然后是 PX1=X1。 (见练习 3.7。)

投影矩阵 P 具有幂等的代数性质:PP=P。见下文定理 3.3.2。有关投影矩阵的一般属性,请参见第 A.11 节。

矩阵 P 在最小二乘回归中创建拟合值:

PY=X(XX)1XY=Xβ^=Y^

由于这个属性,P 也被称为帽子矩阵。

X=1n 是一个由 1 组成的 n 向量时,会出现一个投影矩阵的特殊示例。然后

P=1n(1n1n)11n=1n1n1n.

请注意,在这种情况下

PY=1n(1n1n)11nY=1nY¯

创建一个 n-vector,其元素是样本均值 Y¯

投影矩阵 P 经常出现在最小二乘回归的代数运算中。该矩阵具有以下重要性质。

定理 2 (投影矩阵的性质) 任何 n×kXn k 的投影矩阵 P=X(XX)1X 具有以下代数性质。

  1. P 是对称的 (P=P)

  2. P 是幂等的 (PP=P)

  3. trP=k

  4. P 的特征值为 1 和 0 。

  5. Pk 特征值等于 1 和 nk 等于 0 。

  6. rank(P)=k

我们通过证明 定理 2 中的主张来结束本节。

第 1 部分成立,因为

P=(X(XX)1X)=(X)((XX)1)(X)=X((XX))1X=X((X)(X))1X=P.

为了建立第 2 部分,PX=X 的事实意味着

PP=PX(XX)1X=X(XX)1X=P

对于第 3 部分,

trP=tr(X(XX)1X)=tr((XX)1XX)=tr(Ik)=k.

跟踪算子的定义和属性见附录 A.5。

附录 A.11 表明第 4 部分适用于任何幂等矩阵。对于第 5 部分,由于 trP 等于第 3 部分的 n 特征值和 trP=k 之和,因此有 k 特征值等于 1,其余 nk 等于 0。

对于第 6 部分,观察 P 是半正定的,因为它的特征值都是非负的。根据定理 A.4.5,它的秩等于正特征值的数量,即声称的 k

3 零化矩阵

定义

M=InP=InX(XX)1X

其中 Inn×n 单位矩阵。

可以看到,

MX=(InP)X=XPX=XX=0.

因此 MX 是正交的。

我们称 M 为零化矩阵(Annihilator matrix),因为对于 X 的范围空间中的任何矩阵 Z=XΓ,那么

MZ=ZPZ=0

例如,MX1=0 表示 XMP=0 的任何子组件 X1(参见练习 3.7)。

零化矩阵 MP 具有相似的性质,包括 M 是对称的 (M=M) 和幂等的 (MM=M)。因此它是一个投影矩阵。

定理 2 类似,我们可以计算

trM=nk.

(见习题 3.9。)一个暗示是 M 的秩是 nk

P 创建拟合值,M 创建最小二乘残差:

(3)MY=YPY=YXβ^=e^

如上一节所述,投影矩阵的一个特殊示例出现在 X=1n 是一个由 1 组成的 n-vector 时,因此 P=1n(1n1n)11n。相关的零化矩阵是

M=InP=In1n(1n1n)11n.

P 创建样本均值向量,M 创建离均值:

MY=Y1nY¯

为简单起见,我们通常将右侧写为 YY¯ith 元素是 YiY¯Yi 的离均值

我们还可以使用 式 3 为残差向量写一个替代表达式。将 Y= Xβ+e 代入 e^=MY 并使用 MX=0 我们发现

e^=MY=M(Xβ+e)=Me

它不依赖于回归系数 β

4 影响力值

回归矩阵 X 的影响力值是投影矩阵 P=X(XX)1X 的对角线元素。有 n 影响力值,通常写为 hii 对应 i=1,,n。自从

P=(X1X2Xn)(XX)1(X1X2Xn)

他们是

hii=Xi(XX)1Xi

影响力值 hii 是观察到的回归向量 Xi 的标准化长度。它们经常出现在最小二乘回归的代数和统计分析中,包括留一法回归、有影响的观察、稳健的协方差矩阵估计和交叉验证。

现在列出了影响力值的一些属性。

定理 3 (影响力值的性质)  

  1. 0hii1

  2. hii1/n 如果 X 包含截距。

  3. i=1nhii=k

影响力值 hii 衡量 ith 观察 Xi 相对于样本中其他观察的异常程度。当 Xi 与其他样本值完全不同时,会出现较大的 hii。衡量整体异常性的是最大影响力值

(4)h¯=max1inhii.

通常说,当影响力值都大致相等时,回归设计是平衡的。从 定理 3 我们推导出当 hii=h¯=k/n 时出现完全平衡。完全平衡的一个例子是,当回归变量都是正交虚拟变量时,每个变量都有相同的 0 和 1 出现。

如果某些影响力值与其他影响力值高度不相等,则回归设计是不平衡的。最极端的情况是 h¯=1。发生这种情况的一个示例是,当有一个虚拟回归元仅对样本中的一个观察值取值为 1 时。

最大影响力值 式 4 将根据回归变量的选择而变化。例如,考虑方程 (3.13),对具有 n=268 观察值的单身亚洲男性的工资回归。这个回归有 h¯=0.33。如果省略平方经验回归量,则影响力值降至 h¯=0.10。如果添加一个立方经验,它会增加到 h¯=0.76。如果四次方和五次方相加,则增加到 h¯=0.99

一些推理过程(例如稳健的协方差矩阵估计和交叉验证)对高影响力值很敏感。我们稍后会回到这些问题。

我们现在证明 定理 3

对于第 1 部分,令 sin×1 单位向量,其中 ith 位置为 1,其他位置为零,因此 hii=siPsi。然后应用二次不等式 (B.18) 和定理 3.3.4,

hii=siPsisisiλmax(P)=1

对于第 2 部分分区 Xi=(1,Zi)。不失一般性,我们可以用离均值的值 Zi=ZiZ¯ 替换 Zi。然后因为 Zi 和截距是正交的

hii=(1,Zi)[n00ZZ]1(1Zi)=1n+Zi(ZZ)1Zi1n.

对于第 3 部分,i=1nhii=trP=k,其中第二个等式是定理 3.3.3。

4.1 影响力值的计算

P=X(XX)1X

影响力值hii是上述投影矩阵的对角线元素,因此可以表达为:

第一步,先算出平方化矩阵

H=X(X(XX)1)

第二步,对上述矩阵进行行加总求和:

hii=i=1nH

脚注

  1. 读作/əˈnaɪəˌleɪtər/↩︎

  2. 要注意后面部分是正常的矩阵运算,然后再进行矩阵元素相乘运算↩︎