1、课程简介
本课程讲解现在工业界和学术界流行的机器学习算法的相关知识,以及如何用python去实现这些算法。算法的讲解包括supervised learning和unsupervised learning 两个部分。其中supervised learning包括classification和regression的若干流行的模型的讲解。Unsupervised learning部分,我们会讲解clustering和principle component analysis等算法。
除此之外,课程还包括用python进行文本数据预处理过程的讲解,以及model evaluation和 cross-validation等实际应用中经常运用的技术。
所有机器学习的算法讲解都会配合着python的程序进行说明。本课程的讲解和作业中的具体实例数据是2001年美国安然公司破产丑闻事件中的电子邮件数据。数据包含了几十万封电子邮件。我们将教会大家如何利用数据挖掘的算法来分析这些电子邮件,提取出来有效的信息。
学习方式:在线视频+QQ答疑
2、学习目标
本课程结束的时候,学员将会掌握以下的技术:
1. 如何用python进行实际世界中的文本文件的预处理,把数据转化成建立模型前所需要的数据结构。
2.分类模型:K-nearest neighbor Model,e Bayes Model, Support Vector Machine, Decision Tree, Bagging 和 Random Forest 模型。
3. 回归模型: Simple Regression Model, LASSO, Ridge Regression 模型。
4. Unsupervised Learning: K-mean, PCA模型。
5. Cross-Validation, Model Evaluation, Feature Selection etc.
上述的所说的技术都将用安然事件的数据进行实战的分析。
3、讲师介绍:
费博士, 吉林大学计算机专业学士,中央财经大学统计学硕士,纽约州立大学石溪分校统计学博士。计算机专业和统计学专业的双重背景让费博士自然而然的进入了机器学习的领域。费博士有非常扎实的统计学基本功和扎实的编程技巧,有8年的R语言使用经验和5年的python使用经验。
费博士博士阶段的研究领域集中在tree-based model, 他改进了random forest算法,改进的算法在高维数据的应用中有显著的效果。
Text learning是费博士感兴趣的领域之一,希望本课程可以带领大家进入text mining的领域,让大家认知到如何用machine learning的技术来做text mining。
4、学习对象及学习须知
1. 本课程将全程用中文讲解,但是涉及到专业词汇的部分将用英文。如果对专业词汇的英文不熟悉也没有关系,在课程的进行中我会对专业词汇的中文进行说明。
2. 学习本课程之前,你需要有一些python的基础,比如说熟悉python的基本数据结构和数据类型(list, string, etc),并且熟悉for 循环的写法,知道如何用python写函数等等。你不需要有面向对象编程的知识。
3. 你需要有基本的统计学的知识,稍微了解机器学习大概是干什么的。比如说,你知道回归、分类是为了完成哪些工作的,再比如说你知道我们要建立模型的数据X和y分别代表什么意思。但是具体的模型,在学习本课程之前你不需要有任何基础知识。
5.课程大纲
序号 | 课程内容 |
1 | 第一节:软件设置和python预习 |
1.1 Anaconda的安装以及IPython Notebook的应用 | |
1.2 核心数据结构 | |
1.3 用python文件导入导出 | |
2 | 第二节 numpy简介 |
2.1 numpy数组和操作 | |
2.2 numpy 文件导入导出 | |
3 | 第三节 pandas 简介 |
3.1 pandas数据框及操作 | |
3.2 pandas 数据导入导出 | |
4 | 第四节 回归模型 |
4.1 机器学习 | |
4.2 简单回归模型 | |
4.3 简单线性回归拓展 | |
5 | 第五节 正则化回归和交叉验证 |
5.1 正则化回归模型 lasso算法 | |
5.2 正则化回归 岭回归 | |
5.3 调整参数 交叉验证 | |
6 | 第六节 分类模型 |
6.1 逻辑回归 | |
6.2 朴素贝叶斯 | |
6.3 k-近邻 | |
6.4支持向量机 | |
6.5 决策树 | |
6.6 组合方法 袋装法 | |
6.7 组合方法 随机森林 | |
7 | 第七节 文本学习 |
7.1 文件导入导出复习 | |
7.2 词根 | |
7.3 安然公司项目 TF-IDF 转换 | |
7.4 安然公司项目 特征选择 | |
8 | 第八节 非监督学习 |
8.1 聚类 k-mean 方法 | |
8.2 降维 主成分分析 |