regulazation
笔记来自这篇 文章, 主要讲了l0, l1, l2核范数的理解
loss function
对与parametrical模型, 如果是square loss 那就是最小二乘法, 如果是Hinge loss那就是SVM, 如果是EXP-LOSS, 那就是boosting, 如果是log-loss, 那就是logistic回归
regularation
L0
与L1范数
——Lasso回归这里可以把L1看做L0的凸近似, 这两个范数都是用来稀疏化系数的, , 其有以下两点好处
- 可解释性(Interpretability):当模型稀疏化后 就可以找到重要的系数
- 特征选择(Feature selection):系数化可以进行特征选择, 过滤掉无用的信息
L2范数
, 也可以叫做岭回归
(Ridge regression),其有解析解 既weight decay
其作用有
防止过拟合, 提高模型的泛化能力
有助于处理condition number不好的情况求矩阵的逆比较困难的情况(这里condition number )
这里的condition number是指可能出现的病态问题, 既系统对误差的敏感性太大, 以至于解得误差也非常的大, 其condition number可以定义为
这里当condition number过大时会使得迭代速度变慢 如下图, 加入
L2范数
后可以使得其变为strongly convex, 既其下界是一个二次函数, 就可以提高收敛速度.如下图其可以使得每一个参数都比较小, 缩小了模型空间
下降速度
这里由于lasso是直线下降,而ridge是曲线下降, 所以lasso的下降速度要更快一些, 如下图
模型空间
对于L1 和L2规则的代价函数, 我们可以写成以下形式:
所以我们可以把模型空间限制在L1-ball里面, 可以看出的是lasso与目标函数的交点在轴处,这里的参数必然是有0的, 也就自然有feature selection, 但是当ridge regression的时候, 交点就是在圆处, 这里就只会出现使得每一个参数都比较小的参数, 所以两者最后迭代出来的参数是不同的.