本课程照顾到零基础学员,从最基础的Linux入手,到Hadoop技术,再到Spark官方指定语言Scala,再到最后的SparkSQL,Spark Stream技术,一站式全链路教学,Spark技术一课搞定,电商项目全程贯穿,如果您是一个从未接触过Spark技术的小白,如果您对Spark流实时计算技术感举趣,那么此套课程一定是你需要的
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 有以下三个特点:
首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
其次,Spark 很快,支持交互式计算和复杂算法。
最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。
最适合小白学习的Spark 大数据实时技术教程
Spark最短学习路径,轻松上手,学途无忧
课件完整,思路清晰,讲师手把手一步步带你搭建学习环境,细致入微适用人群
1、具有一定的Java语言基础
2、希望从零快速上手Spark技术开发的在职大数据开发人员
3、对 Spark 实时流开发技术感兴趣的大数据开发人员
课程使用软件版本
CentOS-6.6-x86_64
jdk-8u45-windows-x64
jdk-8u171-linux-x64
NetSarangXmanagerEnterprise5
VMware-workstation-full-14.1.2-8497320
hadoop-2.6.0-cdh5.7.6
ideaIC-2018.2.6
scala-2.11.8
apache-maven-3.3.9
spark-2.2.0
一、Linux篇
1、课程介绍和服务器介绍以及虚拟计算机的创建
2、Linux系统介绍
3、Linux系统安装配置(一)
4、Linux系统安装配置(二)
5、hostname介绍和配置
6、关闭虚拟机
7、远程工具介绍和连接
8、基本命令介绍
9、文件操作和关机命令
10、权限管理
11、权限管理及软件管理
二、Hadoop篇
12、大数据的发展和时代背景
13、Hadoop集群的特点和优势
14、Hadoop及其组件介绍
15、HDFS框架实现原理
16、YARN和MapReduce原理和介绍
17、Hadoop平台搭建准备(1)
18、Hadoop平台搭建准备(2)
19、使用VMware设置还原点和实现数据的迁移
20、Hadoop的CDH版本的介绍
21、Hadoop运行参数配置
22、Hadoop集群参数配置
23、HDFS集群的启动和测试
24、YARN的启动测试和完成经典官方案例wordcount
25、MapReduce工作原理
26、日志聚合服务配置和测试
三、SCala篇
27、Scala介绍和环境的配置
28、开发环境和插件的安装介绍
29、_IDEA项目编辑器中创建Scala项目
30、第一句helloworld并且和Java的对比
31、Scala中变量和基本语法
32、Scala中数组的介绍
33、List和Map的介绍
34、Scala中的函数书写规范
35、高阶函数
36、Scala中的匹配模式
37、隐式函数、隐式类和隐式对象
38、隐式值等的介绍
39、使用Scala完成Hadoop经典案例词频统计
四、Spark篇
40、Spark介绍
41、Spark核心概念和环境配置介绍
42、集群中Scala的环境配置
43、Spark配置及启动
44、使用Spark完成wordcount案例
45、maven的介绍和配置
46、idea配置maven和导入maven工程
47、编写Spark模板文件和作用
48、Spark实现wordcount功能
49、Sparksession介绍
50、数据准备及项目需求分析
51、使用Spark完成淘宝用户数据分析项目
52、Spark的standalone模式的配置和测试运行以及和本地模式的区别对比