数据预处理主要做“三值四化”这点事(50个系列小视频之11)
    1. 录播
      8分钟

对课程感兴趣?

点击报名,听课时长可兑换余额哦~

数据预处理主要做“三值四化”这点事(50个系列小视频之11)免费

最近在学 0 累计报名 0 好评度 -
咨询老师
用手机看

扫一扫继续用手机看

  • 微信扫码

  • QQ扫码

下载手机APP

课程概述

目录

评论

老师介绍

  • 钱兵

    钱兵

    中国电信北京研究院产品总监,CDA二级建模师。从事数据分析和数据挖掘的工作8年,从2010年陆续通过网络远程语音和面授有上百次教学经验。
简  介 数据预处理那点事。。。

我们知道在做数据分析之前、中期都需要做数据预处理,也知道数据预处理不好的话,会严重影响后期模型的分析结果。但不同人口里说的数据预处理,包含的内容往往不一样,甚至把模型结果不好的一切原因都归属于数据预处理没做好,他们经常说:你的数据没做好预处理,所以才。。。。

 

不同书籍、课程、网站、人在介绍数据预处理的内容上,会有差异,这很正常。不同学科、行业背景的人,拿到不同的数据,做预处理的内容不一样完全正常。

 

我在这里,将不同学科、行业的数据分析需要做的预处理内容,归纳整理出四个字“三值四化”,这四个字代表的内容,是大多数场景里需要做的预处理。

 

三值,是错误值、异常值、缺失值。

 

四化,是数据离散化、数据一般化、数据标准化、数据归一化。

 

这里面有些特别容易处理,比如错误值,要么修改过来要么删除;再比如数据一般化,通常根据研究者主观经验来处理。

 

但异常值、缺失值、离散化、标准化的处理稍微有点复杂,对于刚入门的初学者会有不好疑惑的地方,这些内容将在以后的视频里逐个给大家分享。

* 课程提供者:钱兵