数据科学导论(二.数据预处理)

以下为纲要,更多可参考https://blog.csdn.net/binbigdata/article/details/84565486

1.流程:数据清洗+数据整合+数据转换+数据规约

2.残缺值处理:

 a.删除法

 b.填补法:

 (1)均值填补(缺点:1.方差被低估;2.弱化了特征相关性)

 (2)随即填补(近似贝叶斯bootstrap方法)

 (3)基于模型的填补

 (4)哑变量方法

 (5)EM算法填补(最大期望值算法)

3.离群值:

 应用:信用欺诈检测、疾病分析、计算机安全判断

 检测方法:

 a.基于统计的方法:分位点;盒图观察;

 b.基于邻近的方法

4.特征编码:数字编码;ONE-HOT编码;哑变量编码

5.数据标准化:

  • z-score标准化
  • min-max标准化
  • 小数定标标准化
  • logistic标准化

6.特征离散化:(概念:区间段、切分点、元数)

  • 分类:
    • 无监督离散化:等距离散化;等频离散化;聚类离散化
    • 有监督离散化:信息增益离散化;ChiMerge离散化
  • 步骤:
    • 特征排序
    • 切分点选择
    • 区间段分割或合并

(卡方离散化?)

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注