表达体系

1 基本记号

1.1 因变量和自变量

记号：大写英文加下标表示总体变量，小写英文加下标表示变量的抽取实现。

因变量记为：$Y$

对于总体而言，共有$k$个自变量，用大写英文分别记为：$\{X_1, X_2, \cdots, X_{k-1}, X_k \}$。其中最后一个自变量可以视作为1的常数（将对应于截距项），也即$\{X_1, X_2, \cdots, X_{k-1}, 1\}$。

对于具体的抽取实现（data draw）¹而言，自变量表达用小写英文分别记为：$\{x_1, \cdots, x_{k-1}, x_k\}$，以及截距项版本：$\{x_1, x_2,\cdots, x_{k-1}, 1\}$

为了表达的紧凑性，总体情形下的自变量可以表达为列向量（$k \times 1$）形式：

\[ X=\left(\begin{array}{c} X_{1} \\ X_{2} \\ \vdots \\ X_{k-1} \\ X_k \end{array}\right) =\left(\begin{array}{c} X_{1} \\ X_{2} \\ \vdots \\ X_{k-1} \\ 1 \end{array}\right) \]

相应地，抽取实现（data draw）下自变量也可以表达为列向量（$k \times 1$）形式：

\[ x=\left(\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{k-1} \\ x_k \end{array}\right) =\left(\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{k-1} \\ 1 \end{array}\right) \]

警告

以上列向量只是作为自变量的列向量，并不代表观测数据结构（也即不考虑观测个体$i \in 1, 2, \cdots, n$）。

2 条件期望与投影

2.1 条件期望函数

条件期望可以表达为在自变量特定抽取实现下因变量的条件期望函数，记为：

\[ \mathbb{E}\left[Y \mid X_{1}=x_{1}, X_{2}=x_{2}, \ldots, X_{k}=x_{k}\right]=m\left(x_{1}, x_{2}, \ldots, x_{k}\right) \]

按照上述紧凑表达法，进一步可以记为：

\[ \mathbb{E}(Y|X=x) = m(x) \]

给定线性情形，则条件期望函数表达为：

\[ \begin{aligned} \mathbb{E}(Y|X=x) &=m(x) \\ & = x_{1} \beta_{1}+x_{2} \beta_{2}+\cdots+x_{k-1} \beta_{k-1}+x_{k}\beta_{k} \\ & = x{\prime}\beta \end{aligned} \]

其中：

\[ x=\left(\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{k-1} \\ x_k \end{array}\right) ;\quad \beta=\left(\begin{array}{c} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{k-1}\\ \beta_{k} \end{array}\right) \]

2.2 总体回归模型

对于同方差情形，线性总体回归模型记为：

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid X] &=0 \\ \mathbb{E}\left[e^{2} \mid X\right] &=\sigma^{2} \end{aligned} \]

其中，$e$表达总体随机干扰项，且：

\[ X=\left(\begin{array}{c} X_{1} \\ X_{2} \\ \vdots \\ X_{k-1} \\ X_k \end{array}\right) ;\quad \beta=\left(\begin{array}{c} \beta_{1} \\ \vdots \\ \beta_{k-1}\\ \beta_{k} \end{array}\right) \]

警告

同理，以上列向量只是作为自变量的列向量，并不代表观测数据结构（也即不考虑观测个体$i \in 1, 2, \cdots, n$）。
以上英文大写$X,Y$仅表示变量，要注意与矩阵表达符号$\boldsymbol{X},\boldsymbol{Y}$的区别。
总体随机干扰项记为$e$，也要与其他教材的常用记号（例如古扎拉蒂记为$u$）做区别。

2.3 仅含截距模型

记号：条件期望为常数，则记为截距（或期望）$\mu$。

对于总体回归模型而言，条件期望为常数$\mathbb{E}(Y|X)=\mu$，则称为仅含截距模型：

\[ \begin{aligned} Y &=\mu+e \\ \mathbb{E}[e] &=0 \end{aligned} \]

警告

条件期望为常数，也即$\mathbb{E}(Y|X) \equiv \mu$。注意并不是表达总体随机干扰项$e$的期望（不同于古扎拉蒂教材记号）。
如果要表达其他变量的期望，则应该相应加下标，例如：${Y} (Y) ; {X} (X) $。

2.4 Q矩阵

变量矩阵$\boldsymbol{Q}_{X X}$又被称为设计矩阵（design matrix），它的维度是 $k \times k$：

\[ \begin{aligned} \boldsymbol{Q}_{X X}&=\mathbb{E}\left[X X^{\prime}\right]\\ &=\mathbb{E} \left[ \begin{pmatrix} X_1\\ X_2\\ \vdots\\ X_k \end{pmatrix} \otimes \begin{pmatrix} X_1 & X_2 & \cdots & X_k \end{pmatrix} \right]\\ &=\mathbb{E} \left[ \begin{pmatrix} X_1X_1 & X_1X_2 & \cdots &X_1X_k \\ X_2X_1 & X_2X_2 & \cdots &X_2X_k \\ \vdots & \vdots &\ddots &\vdots\\ X_kX_1 & X_kX_2 &\cdots & X_kX_k \end{pmatrix} \right] \\ &= \begin{pmatrix} \mathbb{E}(X_1X_1) & \mathbb{E}(X_1X_2) & \cdots & \mathbb{E}(X_1X_k) \\ \mathbb{E}(X_2X_1) & \mathbb{E}(X_2X_2) & \cdots & \mathbb{E}(X_2X_k) \\ \vdots & \vdots &\ddots &\vdots\\ \mathbb{E}(X_kX_1) & \mathbb{E}(X_kX_2) &\cdots & \mathbb{E}(X_kX_k) \end{pmatrix} \end{aligned} \]

而变量矩阵$\boldsymbol{Q}_{X Y}$ 的维度是 $k \times 1$：

\[ \begin{aligned} \boldsymbol{Q}_{X Y}&=\mathbb{E}\left[X Y\right]\\ &=\mathbb{E} \left[ \begin{pmatrix} X_1\\ X_2\\ \vdots\\ X_k \end{pmatrix} \otimes \begin{pmatrix} Y \end{pmatrix} \right] =\mathbb{E} \left[ \begin{pmatrix} X_1Y\\ X_2Y\\ \vdots\\ X_kY \end{pmatrix} \right] = \begin{pmatrix} \mathbb{E}(X_1Y) \\ \mathbb{E}(X_2Y) \\ \vdots \\ \mathbb{E}(X_kY) \end{pmatrix} \end{aligned} \]

警告

此处，期望符号$\mathbb{E}\left[\quad\right]$里面的$X$仍旧被视作是自变量（向量），而不是矩阵$\boldsymbol{X}$。（注意符号加粗的区别）
但是，上述计算结果$\boldsymbol{Q}$则是矩阵，而不是一个标量$Q$。（注意符号加粗的区别）
变量矩阵$\boldsymbol{Q}_{XX}$表达的是平方含义（注意下标写法不是$\boldsymbol{Q}_{XX^{\prime}}$），实际上是自身列向量矩阵乘以行向量$X\otimes X^{\prime}$。

矩阵 $\boldsymbol{Q}_{X X}$ 之所以被称为设计矩阵，是因为在实验设置中，研究人员能够通过操纵回归元 $X$ 的分布来控制 $\boldsymbol{Q}_{X X}$。它有如下性质：

（1）对于任何非零 $\alpha \in \mathbb{R}^{k}$，

\[ \alpha^{\prime} \boldsymbol{Q}_{X X} \alpha=\mathbb{E}\left[\alpha^{\prime} X X^{\prime} \alpha\right]=\mathbb{E}\left[\left(\alpha^{\prime} X\right)^{2}\right] \geq 0 \]

所以 $\boldsymbol{Q}_{X X}$ 通过构造是半正定的，通常写为 $\boldsymbol{Q}_{X X} \geq 0$。

2.5 线性投影模型

提示

花体英文符号表达的是矩阵函数，例如$\mathscr{P}$（其对应LaTex语法是\mathscr{P}）。
空心英文符号 $\mathbb{E}$ 表达矩阵期望运算（$\mathbb{E}$对应的LaTex语法是\mathbb{E}）。

线性投影模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[X e] &=0 \\ \beta &=\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y] \end{aligned} \]

线性投影系数唯一存在，且等于：

\[ \beta=\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y] = \boldsymbol{Q}_{XX}^{-1}\boldsymbol{Q}_{XY} \]

给定 $X$ 的 $Y$ 的最佳线性预测器是：

\[ \mathscr{P}(Y \mid X)=X^{\prime}\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y] \]

3 最小二乘代数

3.1 LS矩阵表达（3.10）

\[ \boldsymbol{Y}=\boldsymbol{X} \beta+\boldsymbol{e} \]

其中：

\[ \boldsymbol{Y}=\left(\begin{array}{c} Y_{1} \\ Y_{2} \\ \vdots \\ Y_{n} \end{array}\right), \quad \boldsymbol{X}=\left(\begin{array}{c} X_{1}^{\prime} \\ X_{2}^{\prime} \\ \vdots \\ X_{n}^{\prime} \end{array}\right), \quad \boldsymbol{e}=\left(\begin{array}{c} e_{1} \\ e_{2} \\ \vdots \\ e_{n} \end{array}\right) \]

注释

不加粗大写$X$的下标符号，具有不同的情景含义：

矩阵$\boldsymbol{X}$内部的第$i$行（下标表达全体自变量的某个样本观测$i \in 1 ,2, \cdots , n$）：

\[ X_i^{\prime} = \begin{pmatrix} X_{1i} & X_{2i} & \cdots & X_{ki} \end{pmatrix} \]

上述符号不同于特定变量记号$X_{j}$（下标表达特定变量$j \in 1, 2, \cdots, k$）
尽管有时候，两种情景下都有表达$X_2$，此时更重要的区别是符号表达的背景环境。如果$(2 \in 1, 2, \cdots,k)$，则表明是总体环境下特定自变量$X_2$；如果$(2 \in 1, 2,\cdots, n)$，则表明是观测样本环境下全体自变量的第2个观测值 $X_2$：

\[ X_2=\begin{pmatrix} X_{12} \\ X_{22} \\ \cdots \\ X_{k2} \end{pmatrix} \]

样本总和可以用矩阵表示法编写：

\[ \begin{aligned} &\sum_{i=1}^{n} X_{i} X_{i}^{\prime}=\boldsymbol{X}^{\prime} \boldsymbol{X} \\ &\sum_{i=1}^{n} X_{i} Y_{i}=\boldsymbol{X}^{\prime} \boldsymbol{Y} \end{aligned} \]

将误差平方和写为：

\[ \operatorname{SSE}(\beta)=(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta) \]

最小二乘估计结果为：

\[ \begin{aligned} \widehat{\beta} &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}\right) \\ \widehat{\boldsymbol{e}} &=\boldsymbol{Y}-\boldsymbol{X} \widehat{\beta} \\ \boldsymbol{X}^{\prime} \widehat{\boldsymbol{e}} &=0 . \end{aligned} \]

警告

矩阵表达与变量表达的差异（注意对比符号加粗以及转置符号位置的差异）：

总体线性投影模型为$Y =X^{\prime} \beta+e$（英文不加粗）；而最小二乘矩阵模型表达为$\boldsymbol{Y}=\boldsymbol{X} \beta+\boldsymbol{e}$（英文加粗）。
总体投影系数公式$\beta=\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y]$（英文不加粗）；而最小二乘估计系数为$\widehat{\beta} =\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}\right)$（英文加粗）。

3.2 误差方差的矩估计（3.13）

误差方差 $\sigma^{2}=\mathbb{E}\left[e^{2}\right]$ 是一个二阶总体矩。因此理论上可以获得其矩估计量（但实际无法计算得到）：

\[ \widetilde{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} =n^{-1} {\boldsymbol{e}}^{\prime} {\boldsymbol{e}} \]

一个可行的矩估计量（利用LS残差$\hat{e}_i$替代$e_i$）是：

\[ \widehat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i}^{2} = n^{-1} \widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}} \]

利用零化矩阵的如下计算关系式：

\[ \begin{aligned} \widehat{\boldsymbol{e}}&=\boldsymbol{M} \boldsymbol{Y} =\boldsymbol{M} (\boldsymbol{X}\beta +\boldsymbol{e}) =\boldsymbol{M} \boldsymbol{e} \\ \boldsymbol{M M}&=\boldsymbol{M{}} \end{aligned} \]

因此有：

\[ \widehat{\sigma}^{2}=n^{-1} \widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}}=n^{-1} \boldsymbol{e}^{\prime} \boldsymbol{M M} \boldsymbol{e}=n^{-1} \boldsymbol{e}^{\prime} \boldsymbol{M} \boldsymbol{e} \]

一个有趣的应用是：

\[ \widetilde{\sigma}^{2}-\widehat{\sigma}^{2}=n^{-1} \boldsymbol{e}^{\prime} \boldsymbol{e}-n^{-1} \boldsymbol{e}^{\prime} \boldsymbol{M} \boldsymbol{e}=n^{-1} \boldsymbol{e}^{\prime} \boldsymbol{P} \boldsymbol{e} \geq 0 \]

最后的不等式成立，因为 $\boldsymbol{P}$ 是半正定的，而 $\boldsymbol{e}^{\prime} \boldsymbol{P} \boldsymbol{e}$ 是二次形式。这表明可行估计量 $\widehat{\sigma}^{2}$ 在数值上小于理想化估计量$\widetilde{\sigma}^{2}$。

3.3 方差分析（3.14）

线性回归模型的另一种写法是正交分解关系式：

\[ \boldsymbol{Y}=\boldsymbol{P} \boldsymbol{Y}+\boldsymbol{M} \boldsymbol{Y}=\widehat{\boldsymbol{Y}}+\widehat{\boldsymbol{e}} . \tag{1}\]

这种分解是正交的，即

\[ \widehat{\boldsymbol{Y}}^{\prime} \widehat{\boldsymbol{e}}=(\boldsymbol{P} \boldsymbol{Y})^{\prime}(\boldsymbol{M} \boldsymbol{Y})=\boldsymbol{Y}^{\prime} \boldsymbol{P} \boldsymbol{M} \boldsymbol{Y}=0 \]

进一步左乘矩阵$\boldsymbol{Y}^{\prime}$，则有：

\[ \boldsymbol{Y}^{\prime} \boldsymbol{Y}=\widehat{\boldsymbol{Y}}^{\prime} \widehat{\boldsymbol{Y}}+2 \widehat{\boldsymbol{Y}}^{\prime} \widehat{\boldsymbol{e}}+\widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}}=\widehat{\boldsymbol{Y}}^{\prime} \widehat{\boldsymbol{Y}}+\widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}} \]

或者写成：

\[ \sum_{i=1}^{n} Y_{i}^{2}=\sum_{i=1}^{n} \widehat{Y}_{i}^{2}+\sum_{i=1}^{n} \widehat{e}_{i}^{2} \]

从正交分解关系式 1 的两边减去 $\bar{Y}$，我们得到离均形式的正交分解关系：

\[ \boldsymbol{Y}-\mathbf{1}_{n} \bar{Y}=\widehat{\boldsymbol{Y}}-\mathbf{1}_{n} \bar{Y}+\widehat{\boldsymbol{e}} \tag{2}\]

容易证明，上述离均形式的分解（式 2 ）是正交的，因为：

\[ \left(\widehat{\boldsymbol{Y}}-\mathbf{1}_{n} \bar{Y}\right)^{\prime} \widehat{\boldsymbol{e}}=\widehat{\boldsymbol{Y}}^{\prime} \widehat{\boldsymbol{e}}-\bar{Y} \mathbf{1}_{n}^{\prime} \widehat{\boldsymbol{e}}=0 \]

同理，我们对上述离均形式的正交分解关系式（式 2 ）也类似进行矩阵左乘变换，得到：

\[ \left(\boldsymbol{Y}-\mathbf{1}_{n} \bar{Y}\right)^{\prime}\left(\boldsymbol{Y}-\mathbf{1}_{n} \bar{Y}\right)=\left(\widehat{\boldsymbol{Y}}-\mathbf{1}_{n} \bar{Y}\right)^{\prime}\left(\widehat{\boldsymbol{Y}}-\mathbf{1}_{n} \bar{Y}\right)+\widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}} \]

或者记为：

\[ \sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}=\sum_{i=1}^{n}\left(\widehat{Y}_{i}-\bar{Y}\right)^{2}+\sum_{i=1}^{n} \widehat{e}_{i}^{2} . \]

这通常称为最小二乘回归的方差分析公式。

3.4 LS投影（3.15）

注释

花体符号 $\mathscr{R}(\boldsymbol{X})$ （LaTex语法\mathscr{R}(\boldsymbol{X})）表示回归矩阵 $\boldsymbol{X}$ 的范围空间（range space）。
空心符号 $\mathbb{R}^{n}$ （LaTex语法\mathbb{R}^{n}）表示实值空间。

回归矩阵的另一种记号法：

\[ \boldsymbol{X}= \begin{pmatrix} \boldsymbol{X}_{1} & \boldsymbol{X}_{2} & \cdots &\boldsymbol{X}_{k} \end{pmatrix} \]

其中，$\boldsymbol{X}_{j},(j \in 1, 2,\cdots, k)$，是矩阵 $\boldsymbol{X}$ 的 $j^{t h}$ 列，也即：

\[ \boldsymbol{X}_j= \begin{pmatrix} {X}_{j1} \\{X}_{j2} \\ \vdots \\{X}_{jn} \end{pmatrix} \]

$\boldsymbol{X}$ 的范围空间（range space） $\mathscr{R}(\boldsymbol{X})$ 是由列的所有线性组合组成的空间 $\boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots, \boldsymbol{X}_{k}$ 。范围空间$\mathscr{R}(\boldsymbol{X})$ 是包含在$\mathbb{R}^{n}$ 中的 $k$ 维曲面。

如果$k=2$，则 $\mathscr{R}(\boldsymbol{X})$ 是平面。投影运算符 $\boldsymbol{P}=\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime}$ 将向量投影到 $\mathscr{R}(\boldsymbol{X})$ 上。拟合值 $\widehat{\boldsymbol{Y}}=\boldsymbol{P} \boldsymbol{Y}$ 是 $\boldsymbol{Y}$ 到 $\mathscr{R}(\boldsymbol{X})$ 的投影。

脚注

简单地，总体自变量$X_k$，不同于观测实现的自变量$x_k$，后者是前者的现实观测对应物。↩︎