本系列课程将基于RedHat Linux 7.4版本、Hadoop 2.7.3、Spark 2 版本全面介绍大数据的整体内容,让学员深入理解并掌握运行机制和原理,从而进一步掌握大数据的相关内容。
本门课程课程大纲
==========================================================================
一、课程概述
1、MapReduce课程概述
二、MapReduce编程基础
2、案例分析:WordCount数据处理的过程
3、开发自己的WordCount程序
4、案例分析:求每个部门的工资总额
5、开发MapReduce程序实现求部门的工资总额
三、MapReduce的特性一:序列化
6、Hadoop的序列化机制
7、在MapReduce程序中使用序列化
四、MapReduce的特性二:排序
8、数字的排序
9、字符串的排序
10、对象的排序
五、MapReduce的特性三:分区和合并
11、什么是分区
12、分区案例:根据部门号建立分区
13、什么是Combiner
六、MapReduce的核心:Shuffle
14、 什么是Shuffle(洗牌)?
七、MapReduce编程案例
15、编程案例一:数据去重
16、知识回顾:关系型数据库中的多表查询
17、编程案例二:分析等值连接的数据处理流程
18、编程案例二:实现等值连接的数据处理流程
19、编程案例三:分析自连接的数据处理流程
20、编程案例三:实现自连接的数据处理流程
21、案例四:分析倒排索引的数据处理过程
22、案例四:编程实现倒排索引
23、案例五:使用MRUnit进行单元测试
八、第一个阶段小结
24、第一个阶段小结