机器学习——linear regression

Posted on 2018-08-19 Edited on 2025-09-18 In 机器学习

终于完成了机器学习基石相对理论的部分，可以开始一些具体的算法的学习了。首先学习的第一个算法就是线性回归（linear regression）。

线性回归想做到的事情是，给出一堆点，使用一条直线（平面或者其他）来拟合这个dataset。而在之前的noise and error中提到了，它用来衡量错误的办法是$(y - y’)^2$。

和之前的机器学习算法也一致，因为VC bound在线性回归的例子中也一样适用，所以我们想做的是保证$E_ {in}$越小越好。

对于线性回归的H集合是 $y’ = W^TX$，当然$X$，$W$都是列向量，向量的维度是d+1（d为特征量的个数）.为了minimize $E_ {in}$，首先我们应该写出来$E_ {in}$的表达式：
$$
E_ {in} = \frac 1 n \sum _ {i =
1} (h(X_n) - y)^2 = \frac 1 n \sum _ {i = 1} (W^TX_n - y_n)^2
$$

这个表达式看着还比较复杂，有个求和符号在里面。首先，这后面有N个平方和，我们可以很轻松的想到向量的范数求法。因此，我们可以将原式写成对向量求范数的形式：

$$
E_ {in} = \frac 1 n || XW - Y||^2
$$
上式中
$$
X = \begin{bmatrix}
…X_1^T… \
…X_2^T… \
……….\
…X_n ^T …
\end{bmatrix}
$$
X是一个n*（d+1）的矩阵，n是样本个数，d是特征量个数。

因此$E_ {in}$可以说是一个关于W的函数，而且可以证明的是，这个函数是连续的（continuous），可导的（differentiable）,并且是凸函数（convex）。因此我们一定可以求得最低点，也就是$E_ {in}$的最小值。与实数的函数一样（实际上求的是W的各个方向的偏导数），在取最小值的那个点的时候，$E_ {in}$关于$W$的导数是0，表明取得是极值，也就是梯度是0。

将上式展开可以得到：

$$
E_ {in} = \frac 1 n (W^TX^TXW -2Y^TXW +Y^TY)，
$$
将除了W之外的矩阵或者数字看成常量，则可以得到：
$$
E_ {in} = \frac 1 n (W^TAW-2BW+c)
$$
为了求关于$W$的导数，我们首先想象一下如果是$W$一维的话的样子。
$$
E_ {in} = aW^2-2bW+c ; \frac {dE_ {in} } {dW} = 2aW-2b
$$

对应到矩阵上来说:
$$
\frac {dE_ {in} } {dW} = \frac 1 n 2AW-2B
$$

可以看到的是梯度是一个向量。

为了使得$E_ {in}$取得最小值，那么$X^TXW = X^TY$,如果$(X^TX)$的反矩阵存在，那么很简单:
$$
W = (X^TX)^{-1}X^TY
$$

我们称$(X^TX)^{-1}X^T$为pseudo-inverse $X^{+}$。而且大多数时候我们遇到的都是可逆的，因为$n>>d+1$，这意味着首先对于X矩阵来说，它的秩很可能就是等于d+1的.这样它们相乘的秩很大可能也是d+1，也就是可逆。

但是如果遇到另外的情况，如不可逆，我们可以使用其他的方式来定义$X^{+}$，具体的数学原理需要更详细的线性代数知识，但是我们知道很多程序包里都实现了这些东西，用它一样可以得到比较好的结果。

综上，$W = X^{+}Y$,$Y’ = XW = XX^{+}Y$.

最后，这个算法之所以可以学习，我们可以使用VC bound来证明。但是还有另一种方法，也可以证明它泛化能力不错，可以取得良好的学习效果，当然，与VC bound一样，严格的证明需要更严密的数学推导，下面只是简要介绍。

首先，我们推导$\overline {E_ {in} }$是很接近噪声的（噪声意味着我们无法通过学习进行改善的部分），而同样的步骤可以用在对$\overline {E_ {out} }$的分析上，这样就说明了，平均来说我们的算法是可以取得很好的学习效果的。

首先，我们应该定义一下$\overline {E_ {in} }$：
$$
\overline {E_ {in} } = \epsilon _ {D~P^N}\left{\ E_ {in}(W_ {LIN} w.r.t. D) \right} = noise level \cdot (1-\frac {d+1}{N})
$$

具体的含义就是多个样本的$E_ {in}$平均值，大概看起来会接近noise level，而当样本量越大，与noise level越接近。

首先，我们应该将线性回归得到的结果带入$E_ {in}$的表达式中：
$$
E_ {in} = \frac 1 N ||Y - \hat Y||^2 = \frac 1 N ||Y - XX^{+}Y ||^2 = \frac 1 N ||(I - X X^{+})Y||^2
$$

我们称$XX^{+}$为hat matrix。

这里我们思考$\hat Y = XW$在做什么。Y是一个N维向量，而X可以看做是m个N维向量构成的矩阵，而实际上W的作用，是给每个矩阵中的N维向量分配一个参数，让他们做线性组合，最终得到一个新的N维向量。为了使得$\hat Y$尽量接近于$Y$，从另一个方面来说，就是让$Y - \hat Y \bot X’s span$，也就是让他们的差尽量垂直于X所展开的空间，当垂直时，$\hat Y$等于Y在X上的投影，这时候二者相差是最小的.

实际上，Y一般不可能被X完美表示，因为一般来讲$N>>d$.所以我们能做的就是上面说的。

所以，Hat的作用就是将Y投影到X上。而$(I-Hat)$就是将Y转换为$(Y-\hat Y)$的矩阵。
而且我们可以计算出来$trace (I - Hat) = n - (d+1)$，意味着$(I- Hat)$有$N - d- 1$个自由度。

如果$Y$来自与一些理想的$f(X)$与噪声的组合，那么如果只是理想的函数，则上述得到的差距实际上是由噪声造成的，因此：
$$
E_ {in} = \frac 1 N ||Y - \hat Y||^2 = \frac 1 N ||(I - Hat)noise||^2 = \frac 1 N (N - d - 1)||noise||^2
$$
而$\overline {E_ {in} } = ( 1 - \frac{d+1}{N})noise level$
利用类似的办法，可以推断出来，$\overline {E_ {out} } = ( 1 + \frac{d+1}{N})noise level$.

也就是平均来说，我们通过拟合样本，可以得到更小的错误率，但是泛化之后的错误率往往更大一点。

因此平均来说，我们可以将$E_ {in}$与$E_ {out}$画在一张图上：

如果对应到实际的机器学习，对于一些很少的样本量的机器学习过程，很容易拟合成功，得到很好的$E_ {in}$，甚至是0，但是这时候泛化能力却很差。机器学习，不是一味地增加特征量减少$E_ {in}$，而纠正过拟合的一种办法，就是增加样本量。

最后，我想说的是，上面的”证明”非常不严格，甚至有些地方让人费解。对于机器学习，理论部分严格的证明更多是数学和统计的事情，而学习计算机的人更多的是掌握各种算法，学习利用它来解决问题。即使这样，尽可能多地了解理论部分，对于实际的应用有很大的帮助。这个世界很复杂，永远保持一个好奇心吧。