课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

讲师介绍

  • 中国电信北京研究院产品总监,CDA二级建模师。从事数据分析和数据挖掘的工作8年,从2010年陆续通过网络远程语音和面授有上百次教学经验。

  • 课程详情

    我们知道在做数据分析之前、中期都需要做数据预处理,也知道数据预处理不好的话,会严重影响后期模型的分析结果。但不同人口里说的数据预处理,包含的内容往往不一样,甚至把模型结果不好的一切原因都归属于数据预处理没做好,他们经常说:你的数据没做好预处理,所以才。。。。

     

    不同书籍、课程、网站、人在介绍数据预处理的内容上,会有差异,这很正常。不同学科、行业背景的人,拿到不同的数据,做预处理的内容不一样完全正常。

     

    我在这里,将不同学科、行业的数据分析需要做的预处理内容,归纳整理出四个字“三值四化”,这四个字代表的内容,是大多数场景里需要做的预处理。

     

    三值,是错误值、异常值、缺失值。

     

    四化,是数据离散化、数据一般化、数据标准化、数据归一化。

     

    这里面有些特别容易处理,比如错误值,要么修改过来要么删除;再比如数据一般化,通常根据研究者主观经验来处理。

     

    但异常值、缺失值、离散化、标准化的处理稍微有点复杂,对于刚入门的初学者会有不好疑惑的地方,这些内容将在以后的视频里逐个给大家分享。