你将获得

掌握某些知识点
学会某些技巧（或思路）

教学服务

1v1专属答疑服务
BAT专家面试辅导

讲师介绍

码尚学讲师团队

码上学团队致力于打造 [ 大数据与数据科学 (新IT) ]领域集产品、教学、培训、人才输出于一体的“一站式”企业人才培养解决方案。

课程详情

Apache Spark是分布式计算框架，专为满足低延迟任务和内存数据存储的需求而优化。作为计算框架，Spark速度快，开发简单，能同时兼顾批处理和实时数据分析，因此很快被广大企业级用户所采纳，并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。

本课程主要讲解基于Spark 2.x的机器学习库，MLlib实现了常用的机器学习，如：聚类、分类、回归等6大算法，使用Kaggle竞赛数据集模型构建。本课拒绝枯燥的讲述，将循序渐进从Spark2.x的基础知识开始，然后再透彻讲解各个算法的理论、详细展示Spark实现，最后均会通过实例进行解析实战，帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。通过该课程的学习同学们可以全面掌握Spark MLlib机器学习，进而能够在实际工作中进行ML的应用开发和定制开发。

本课程讲解Spark 在机器学习中的应用，并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、分类等经典机器学习算法及其实际应用，涵盖使用Spark ML Pipeline API创建和调试机器学习流程，内容更加系统、全面、与时俱进，适合所有欲借助Spark来实现常见机器学习应用的开发者。

Spark 构建协同过滤ALS推荐模型
Spark 构建分类模型
Spark 构建回归模型
Spark 构建聚类KMeans模型
Spark 构建关联规则FP-Growth模型
Spark ML Pipeline 构建机器学习

适用人群

学习者需要有一些Spark/Scala/线性代数基础知识

对Spark有兴趣，有志从事数据分析，数据挖掘工作方向的朋友

Spark 2.2.0、Scala 2.11.8

可以全面掌握Spark 2.x机器学习，能够在实际工作中进行ML的应用和定制开发。

第一章：Spark 构建协同过滤ALS推荐模型
第1节、推荐系统概述及ALS算法剖析
1、Spark MLlib机器学习库两类API及常见四大类算法回顾说明
2、通过JD推荐和亚马逊图书推荐剖析推荐系统功能及核心点：相似度
3、分享淘宝推荐系统及协同过滤推荐核心思想及用户对产品的评分分类
4、协同过滤推荐算法ALS核心剖析（将稀疏矩阵分解为用户因子矩阵和产品因子矩阵）
5、Spark MLlib中基于RDD的ALS算法相关类的实现深入剖析

第2节、基于MovieLens电影推荐和模型评估RMSE
1、基于MovieLens电影评分数据使用ALS算法训练模型并查看因子举证
2、将MatrixFactorizeModel对用户产品预测评价和为用户、产品进行推荐及保存加载模型
3、如何评估模型为最佳模型（均方根误差RMSE）及通过调整数据集和算法超参数获取最佳模型

第3节、基于Audioscrobbler音乐推荐及模型调优
1、回顾复习协同过滤算法核心要点及ALS算法矩阵分解
2、使用Scala语言开发对音乐推荐数据训练模型（ALS中隐式评价函数）
3、组合ALS算法中多个超参数训练模型、评估模型找到最佳模型
4、综合分析不同超参数组合训练不同模型状况（显示与隐式）

第二章：Spark 构建分类模型
第1节、分类算法概述及鸢尾花数据集分类
1、Spark MLlib中支持的分类算法（SVM、LR、NB和DT）和集成分类算法（RF和GBDT）及决策树核心剖析
2、分类算法数据格式LabeledPoint及鸢尾花数据调研
3、读取鸢尾花数据构建特征数据Features和标签label、划分数据集为训练集和测试集
4、使用逻辑回归算法训练模型（二分类，调整数据集）及预测分类
5、使用朴素贝叶斯和决策树回归算法训练鸢尾花数据集并预测计算精确度ACC

第2节、Kaggle竞赛Titanic数据集预测生存预测
1、回顾复习Spark MLlib中分类算法、机器学习三要素及特征表示Vector
2、Kaggle竞赛Titanic生存预测数据集调研及自定义Schema读取
3、构建分类算法提取特征和数据格式LabeledPoint标签向量
4、划分数据集、使用二分类算法LR算法训练模型和计算评估指标AUC
5、使用二分类算法LR、DT及RF和GBT算法分别训练模型和计算AUC值比较
6、类别特征使用1-of-K方法转换及Titanic数据中Sex转换与测试
7、对Titanic数据中Age特征字段划分范围及使用1-of-K转换特征（使用DT和RF进行分类训练）

第3节、新闻数据NewsCorpora文本分类
1、文本特征提取词袋模型BOW及TF-IDF加权方式剖析
2、针对新闻分类数据集使用朴素贝叶斯算法训练模型和预测分类（一）
3、针对新闻分类数据集使用朴素贝叶斯算法训练模型和预测分类（二）
4、朴素贝叶斯算法超参数解释说明及分类模型评估指标精确度与混淆矩阵说明
5、Word2Vec算法模型将文本转换为单词向量及查找某单词相似单词

第三章：Spark 构建回归模型
第1节、回归算法概述及BikeSharing数据集训练模型
1、Spark MLlib中支持的回归算法及共享单车数据集调研分析与读取
2、针对共享单车数据集选取特征（8个类别特征和4个数值特征）及构建RDD数据集
3、使用决策树回归算法训练模型及计算RMSE值评估模型
4、模型优化两板斧：特征数据及算法超参数、使用随机森林RF回归算法训练模型及调整参数评估模型
5、使用线性回归算法训练共享单车数据（类别特征未处理）及引出类别特征处理重要性
6、定义函数转换8个类别特征及使用线性回归算法训练模型及RMSE评估

第2节：线性回归模型深入剖析（Ridge和Lasso）
1、复习Spark MLlib中三个回归算法及从源码引入模型过拟合及泛化能力（深入剖析）
2、线性回归正则化Regularization损失函数及L1和L2两种正则化方式
3、从线性回归算法源码剖析SGD方法参数说明及正则化参数含义说明
4、线性回归算法、Lasso算法及Ridge回归算法分别使用训练数据训练模型及调整参数训练比较

第四章：Spark 构建聚类KMeans模型
第1节：聚类KMeans对出租车轨迹聚类
1、机器学习算法分类、非监督学习中聚类算法是什么及以KMeans为例讲解聚类和数据格式Vector
2、深入剖析KMeans算法如何进行聚类操作及出租车轨迹数据说明
3、使用KMeans算法对出租车轨迹数据进行聚类和找出10个类簇中心
4、使用KMeans模型预测测试数据集所属类簇
第2节：基于DataFrame构建KMeans模型
1、基于DataFrame API机器学习库使用三要点
2、基于DataFrame的KMeans算法针对出租车轨迹数据聚类

第五章：Spark 构建关联规则模型
第1节、使用FP-Growth进行关联规则推荐
1、关联规则算法概述及重要概念剖析（支持度、置信度和提升度）
2、使用FPGrowth算法构建模型获取频繁项集
3、依据FPGrowthModel生成关联规则AssociationRules
4、使用RDD聚合函数，依据关联规则，针对业务，得到推荐列表

第2节：使用PrefixSpan构建频繁序列推荐
1、数据挖掘中三种关联算法比较、频繁序列算法PrefixSpan概述及Spark MLlib中实现
2、构建数据集，使用PrefixSpan算法训练数据获取频繁序列集
3、结合实际需要找出符合规则的频繁序列集、模型和结果保存

第六章：Spark ML Pipeline 构建机器学习
第1节：Spark ML Pipeline入门案例
1、Spark MLlib 总结回顾发展及基于DataFrame API的区别
2、Spark ML Pipeline几个重要概念（Transformer、Estimator及Pipeline）剖析
3、管道Pipeline组成及简易文本分类案例需求分析
4、定义转换器与模型学习器、创建Pipeline和模型预测
5、Model持久化及Pipeline如何工作剖析
6、采用TF-IDF方式获取文本特征及Pipeline中Estimator工作原理
7、Transformor和Estimator参数设置（实例和ParamMap）
060108_Cross Validation设置及测试演示

第2节：Spark ML预测森林植被
1、基于ML预测森林植被之SparkSession读取CSV数据并指定列名
2、基于ML预测森林植被之提取特征及决策树算法训练模型（查看决策树）
3、基于ML预测森林植被之决策树算法中每个特征重要性及测试数据预测值
4、基于ML预测森林植被之多分类评估器使用及分类评估混淆矩阵
5、基于ML预测森林植被之Pipeline组合预测流程（转换器、模型学习器、评估器、训练验证和参数调优）
6、基于ML预测森林植被之解码还原类别特征数据
7、基于ML预测森林植被之对类别特征数据使用决策树算法训练模型
8、基于ML预测森林植被之对类别特征数据使用随机决策森林算法训练模型

暂无课程目录～

暂无用户评论～

Spark 2.x 机器学习实战（算法篇）

你将获得

教学服务

讲师介绍

课程详情