本文作为此书笔记,

话说之前本来准备看本书的英文版的, 但是某一天在图书馆逛书的时候发现居然有中文翻译版本的…16年5月份出版的= =于是乎就直接拿中文版读吧, 其实本来想看ESL的, 准备把这本书看完再看ESL吧

导论

主要讲了一些预测建模的应用与本书的结构, 本书虽然是本数据分析的书, 但是更专注于预测建模的实际应用, 即理解和量化模型对未来即将看到的数据的预测准确度.

这本书由四个部分组成, 从第三章开始

第一个部分: 模型的基本要素

  • 数据预处理, 如数据变幻, 增加或移除变量, 区间连续化变量, 以及预处理的原因
  • 抽样, 数据预算, 分配数据, 调试模型, 评估模型, 进一步说明对任何一个问题, 应该尝试不同的模型

第二个部分: 探索传统和现代的回归模型

  1. 衡量连续因变量模型的效果
  2. 回归模型的直观理解, 如线性回归, 偏最小二乘回归和$L_1$正则回归
  3. 非线性回归模型, 包括神经网络, 多元自适应回归样条(MARS), 支持向量机(SVM), K近邻算法(KNN)
  4. 基于树的模型与其在集成方法中的使用, 包括: 回归树, 装袋树, 随机森林, 助推法和Cubist算法.
  5. 实例分析(混凝土强度建模)

第三个部分: 分类预测模型

  1. 对分类模型的评估与回归模型不同: 定义评估量
  2. 对分类模型给出直观解释, 这些方法基于自变量的线性组合, 包括线性, 二次, 正则化或偏最小二乘版本的判别分析, 此外还回顾了分类问题中的惩罚模型
  3. 探索非线性的分类方法, 包括灵活判别分析, 神经网络, 支持向量机(SVM), K近邻算法, 朴素贝叶斯算法等
  4. 与之前一致, 介绍基于树的方法
  5. 分类问题的一个实例分析

第四部分: 总结

  1. 一些在建模和模型评估过程中的注意事项
  2. 特征选择方法, 寻找与相应变量最相关的预测变量, 但是可能也会带来噪声
  3. 介绍量化预测变量重要性的不同方法
  4. 如何正确使用特征选择技术
  5. 一些可能的导致模型表现与实际不一致的现象, 这其中的因素包括噪声和推广预测等

第一部分