你将获得

教学服务

钱兵

数据分析师

中国电信北京研究院产品总监，CDA二级建模师。从事数据分析和数据挖掘的工作8年，从2010年陆续通过网络远程语音和面授有上百次教学经验。

在聊完预处理中缺失值处理方法后，还剩下一个棘手的问题：异常值处理。

今天就和大家聊聊这个问题。

1、什么是异常值

我们得先知道什么是异常值？或者说什么样的值能被定义为异常值？通常我们认为一群人/数据中，大多数的是正常的，和大多数人/数不一样的则被认为是异常值。

从这个描述中我们就发现两点：1）异常是一个相对概念，一个人/数放在不同的比较对象中，会得到完全不一样的结果；2）异常的数量是少量的，当异常的数量超过一定比例时则不被认为是异常的。

弄清楚这两点后，我们在以后做异常值诊断时，必须先确定这两个问题：先确定比较对象，再确定异常值的比例。不然这两个点任何一点都会被人质疑，甚至推翻你的结论。

2、异常值识别方法

识别异常值的方法有很多很多。。。。真的很多每次在找这方面的资料的时候都会出现以前没听过的新方法、名词，这些方法遍布统计学、机器学习、深度学习各领域。

这些方法无论复杂还是简单，本质原理就是通过相似性来判断哪些数值与其他数值不一样，设定一个“不一样程度指标”，再根据这个指标就可以找出每个数值的异常概率。

那么现有这些异常值识别方法，大多是通过距离、密度来判断彼此间相似性，比如四分位差、马氏距离、欧式距离等等。

最近我在项目里设计了一种通过时序数据变化趋势来判断相似性的方法，即变化趋势不一样的会被认为是异常的。

视频中我将异常值识别方法主要分两个维度来介绍：1）单指标异常诊断、2）多指标异常诊断。这两种异常诊断的区别和应用场景很明显，我就不用文字具体叙述了（每次写够300字，就没动力敲字了）

3、异常值处理办法

与异常值识别的方法比起来，处理方法简单粗暴很多。

最直接的是删掉异常值，这种也是最常用的方法，因为很多数据分析方法都受到异常值的影响，所以找出异常值后则删除，再做后续的分析。

第二种方法，偶尔也会使用，当数据量较少，希望保留异常值的样本时，可以使用正常值范围以内的最大值、最小值来替代超过最大值、最小值以外的异常值。

详细讲解可以看下面的视频，看完视频如果还有问题可以在公众号或微信给我留言

暂无课程目录～

暂无用户评论～