type
status
date
slug
summary
tags
category
icon
password
Email
落絮无声春堕泪,行云有影月含羞。——吴文英《浣溪沙》
数据预处理
数据变换
常见的数据变换的方式:通过某些简单的函数进行数据变换。
- 数据指标的一致化处理:
- 极小型
- 极大型
- 中间型
- 区间型
- 数据指标的无量纲化处理:
- 零 - 均值规范化:也叫做标准差规范化,经过处理后的数据平均值为 0,标准差为1。 为原数据的均值, 为标准差。
- 极值差法:又叫最小 - 最大规范化,离差标准化,将数据映射到 之间。
- 功效系数法:就是上一步极值差法然后加了一个偏移量: ,使得最后结果落于 中
数据变换的应用方式:数据的标准化,目的是为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理。
因此可以将数据按照比例进行缩放,使之落入一个据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。如将工资收入属性值映射到[-1,1]或者[0,1]之间。
数据清洗
缺失值处理
对于缺失值的三种处理方法:不处理,删除数据,数据插补。
数据插补的方法:
- 均值/中位数/众数插补
- 使用固定值插补
- 最近邻插补:即在记录中找到与缺失样本最接近的样本的该属性插补,可以通过计算对象间的欧式距离衡量。
- 回归方法插补:根据已有数据和与其有关的其他变量的数据建立拟合模型来预测缺失值
- 插值法插补(推荐):常用的插值法有很多,主要有拉格朗日插值法、牛顿插值法。
对于缺失值处理,我们需要分情况讨论。如果某个变量或某个样本缺失了 70%以上的数据,那么此时对数据进行填补的话,会引入更多的噪声,反而会降低模型的性能,故此时一般直接将该变量或样本删除;如果缺失的不多,我们可以考虑对缺失值进行填补。
matlab
API:- ismissing 或者 isnan :返回一个与输入矩阵同形状的01矩阵,1表示此位置是缺失值。
- rmmissing:直接删除缺失值所在的行列,第二个参数 1 表示行,2表示列。
- fillmissing:填补缺失值。
- 常数填充:constant
- 插值法,常见的插值方法如下:
- 移动窗口填充法:该方法的思想是在缺失值前后开一个“窗口”,用“窗口”内 的数据的均值或中位数进行填充。
代码实现:
异常值处理
- 正态分布3σ原则:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
- 计算均值 μ 和标准差 σ 。
- 判断每个数据值是否在(μ-3σ,μ+3σ) 内,不在则为异常值.
- 异常值可以转换为
nan
值,然后再进行上一步的缺失值处理。
- 画箱线图:下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值。四分位距IQR= Q3-Q1,也就是排名第75%的减去第25%的数值正态分布类似,设置个合理区间,在区间外的就是异常值。一般设[Q1−1.5IQR, Q3+1.5IQR]内为正常值。
- 作者:Yuleo
- 链接:https://www.helloylh.com/article/process
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。