笔记来自这篇 文章, 主要讲了l0, l1, l2核范数的理解

loss function

对与parametrical模型, 如果是square loss 那就是最小二乘法, 如果是Hinge loss那就是SVM, 如果是EXP-LOSS, 那就是boosting, 如果是log-loss, 那就是logistic回归

regularation

L0L1范数——Lasso回归这里可以把L1看做L0的凸近似, 这两个范数都是用来稀疏化系数的, , 其有以下两点好处

  • 可解释性(Interpretability):当模型稀疏化后 就可以找到重要的系数
  • 特征选择(Feature selection):系数化可以进行特征选择, 过滤掉无用的信息

L2范数, 也可以叫做岭回归(Ridge regression),其有解析解 既weight decay其作用有

  • 防止过拟合, 提高模型的泛化能力

  • 有助于处理condition number不好的情况求矩阵的逆比较困难的情况(这里condition number )

    这里的condition number是指可能出现的病态问题, 既系统对误差的敏感性太大, 以至于解得误差也非常的大, 其condition number可以定义为h

    这里当condition number过大时会使得迭代速度变慢 如下图, 加入L2范数后可以使得其变为strongly convex, 既其下界是一个二次函数, 就可以提高收敛速度.如下图

    其可以使得每一个参数都比较小, 缩小了模型空间

    下降速度

这里由于lasso是直线下降,而ridge是曲线下降, 所以lasso的下降速度要更快一些, 如下图

模型空间

对于L1 和L2规则的代价函数, 我们可以写成以下形式:

所以我们可以把模型空间限制在L1-ball里面, 可以看出的是lasso与目标函数的交点在轴处,这里的参数必然是有0的, 也就自然有feature selection, 但是当ridge regression的时候, 交点就是在圆处, 这里就只会出现使得每一个参数都比较小的参数, 所以两者最后迭代出来的参数是不同的.