1. 线性回归模型
给定数据集
假设,使用函数:
b 是一个 scalar
。
使用均方误差作为回归模型的性能度量,则可以转化为一个无约束的优化问题:
解决这个优化问题,可以求导并令其偏导数为0,即可。下面是分别对 w
, b
求导的结果
通常会把(1),(2) 式写成矩阵的形式,即:
其中
令式(3)等于0, 可以得到
但是实际情况下,可能存在A并不是满秩的,比如特征的维度大于样本数。 因此,此时可能会接触多个w,能够使均方误差最小化。选择哪一个作为最优的w,由算法的归纳偏好来决定,比如引入正则化项。
2. 对数似然估计
使用线性回归做分类问题,以二分类问题为例。 可以将其结果y映射到[0,1]区间,然后规定其值大于0.5作为正例,否则作为反例。
如何选择映射函数 f
呢,这里可以采用 sigmoid
函数:
其曲线为:
sigmoid 曲线
此时,将f看作是概率分布,可以采用最大似然概率作为性能度量(它等价于最小化交叉熵)
等价于优化问题:
分别对 w,b求偏导数可得:
分别对为w,b求偏导数
其中
3. LDA 线性判别分析
LDA(Linear Discriminant Analysis), 又称为 fisher 判别分析
。它的主要思想是,将给定的样本,投影到一条直线上,并且保证类内的投影点越接近越好,但是类间的投影点越分散越好。
类内投影点,越接近越好,可以采用方差(协方差举证)指标来衡量,即使其同类样本之间的协反差尽可能的小。
对于类间的投影点,越分散越好。这里可以采用不同类别之间的均值相差尽可能的大。
总结起来的公式为:
LDA的度量函数
w 代表被投影的直线。
令
则
由于w代表被投影的直线,只与其方向有关,不妨设置
可以使用拉格朗日乘法公式,可得:
易知,
求解
- 本文标题:线性回归
- 本文作者:codeflysafe
- 创建时间:2020-12-26 16:14:19
- 本文链接:https://codeflysafe.github.io/2020/12/26/线性模型/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!