线性模型的推导(参考自西瓜书)
原问题:假设有$m$个样本$D=\left\{(\mathbf{x}_{1},y_{1}),(\mathbf{x}_{2},y_{2}),…,(\mathbf{x}_{m},y_{m}) \right\}$,每个样本$\mathbf{x}_{i}=\left ( x_{1},x_{2},…,x_{d} \right )$有$d$个特征,一个目标值$y_{i}=y$
单变量的线性回归
考虑最简单的只有一个特征的样本$(x_{i}, y_{i})$,线性回归试图学习:
为了求得$w$和$b$,则需使用均方误差作为性能度量,并使均方误差最小化:
令$E(w,b)=\sum_{i=1}^{m}\left(wx_{i}+b-y_{i} \right)^{2}$分别对$w$和$b$求偏导:
对$b$:
从以上$w$和$b$的导函数中可以看出相关变量的系数$\sum_{i=1}^{m}x_{i}^{2}$与$m$都为正数,故对应的导函数都为增函数,故当导函数值取0时对应的极值为。令$(1)$式和$(2)$式为值为0,可推导出$w$和$b$的表达式。$先令x的均值\bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}$,先推导$b$的表达式:
再推导$w$的表达式:
求得的两个表达式为:
多元线性回归
考虑多个特征的样本$\mathbf{x}_{i}=\left ( x_{1},x_{2},…,x_{d} \right )$,多元线性回归试图学习:
为了便于向量的运算,令$\hat{w}=(w;b)=\binom{w}{b}$,把数据集$D$表示为一个$m\times(d+1)大小的矩阵:$
再把目标值也写成向量的形式:$\mathbf{y}=\begin{pmatrix}
y_{1}\\
y_{2}\\
…\\
y_{m}
\end{pmatrix}$,则类似有:
令$E_{\hat{w}}=(\mathbf{y}-X\hat{w})^{T}(\mathbf{y}-X\hat{w})$,对$\hat{w}$求导得:
令上式为零即可推导出$\hat{w}$的表达式:
令每个样本为$\hat{x}_{i}=(\mathbf{x}_{i},1)$,得最终的多元线性回归模型:
显然,上式能成立的基本条件就是矩阵$X^{T}X$可逆(即满秩矩阵),当特征的数量大于样本的数量时矩阵就不可逆了。