课程介绍

课程目录

用户评论

课程介绍

课程目录

用户评论

你将获得

掌握某些知识点
学会某些技巧（或思路）

教学服务

1v1专属答疑服务
BAT专家面试辅导

讲师介绍

杜丹晔

11年毕业于合肥工业大学，具有多年j2ee开发工作经验，后转型从事软件教育行业，目前主教Android与Java课程，现任北风产品教学事业部线上就业课程教学主管一职。

刘明

刘老师，北风笔名gerry,5年软件开发从业经验，3年大数据开发经验。参与过旅游、电商、游戏等多个大型企业项目和大数据项目。先任北风网高级大数据讲师。

娄景亮

北风笔名闲筝，10多年软件教育行业从业经验，微软认证讲师，参与过数字化校园云平台、医疗保险、His等多个大型的企业项目开发，在服务端开发、前端开发、项目管理等方面均有着深刻的见解和实战经验，先后担任过国内某知名机构的项目经理以及国内知名IT高端培训机构的教学主管，现任北风首席产品研发经理。

史良

史良，三年IT开发经验，后转型IT软件教育行业，并在国内某知名机构参与研发大数据专业课程与相关教材设计，并在研发期间获得“优秀研发专员“”称号嘉奖，熟悉Hadoop、HBase、spark等大数据核心技术及生态圈框架，现任北风网大数据讲师，获得首批教师资质考核认证。授课风格：深入浅出，接地气。

课程详情

Spark进入2.0时代，引入了很多优秀特性，性能上有较大提升，API更易用。在“编程统一”方面非常惊艳，实现了离线计算和流计算API的统一，实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智能”！

课程适用于Spark零基础或有一些基础的初级学员，帮助学员从基础开始快速占领技术制高点。

学习本课程不需要具备Spark 1.x的基础，因为课程里会覆盖仍保留可用的Spark 1.x的内容。需要Scala基础，课程中用Scala编程语言。

Spark是什么？

Spark 是 Apache 高级项目里面较火的大数据处理的计算引擎，包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。

与 Mapreduce 相比，Spark 具备 DAG 执行引擎以及基于内存的多轮迭代计算等优势，在SQL 层面上，比Hive/Pig引入了更多关系数据库的特性，以及内存管理技术。

Spark 基于磁盘的性能是 MR 的 10 倍，基于内存的性能是 MR 的 100 倍。

Spark 提供 SQL、机器学习库 MLlib、流计算 Streaming 和图计算 Graphx，同时也支持Scala、Java、Python和R语言开发的基于API的应用程序。

1.课程研发环

Spark 2.0

scala-2.11

Jdk1.7

IDE：IntelliJ IDEA

CDH5.7.1

Centos 6.5

Kafka 0.10

Highchart，JS图表框架，用于项目界面展示。

2.内容简介

本课程从基础开始，紧抓重点、言简意赅、深入浅出的讲解Spark 2.0，旨在学员能快速上手并灵活掌握。

课程以实操为主，提供完整详细的源码，供学员学习或应用到项目中。课程的课件也很详细，在学员不方便看视频的时候直接看课件并结合源码，同样可以达到很好的学习效果，并能大幅节省学习时间。

课程中编程语言采用当前较有前景的Scala，Hadoop采用Cloudera Hadoop的5.7.1版本，Kafka的0.10版本.

课程中对RDD操作、SQL、Streaming开发有非常深入系统的讲解，且围绕企业需求场景逐级展开和深化。

课程里不涉及当今企业里还比较少用的数据挖掘算法包MLlib和图计算模块部分。

Cloudy讲师，15年工作经验，近10年一直从事大数据技术领域，经历国内多家知名互联网企业，现就职国内一知名电商任数据部首席架构师。

主导公司Spark项目从无到有的建设，完成公司Hive到Spark的转变，当前Spark已承载数据部85%的离线作业和30%实时作业。

01 Spark架构体系,应用场景

02 Spark 2.0新特性一览

03 把Spark-examples导入到IntelliJ IDEA

04 Cloudera Manager安装

05 CDH5.7.1 集群安装

06 CDH5.7.1 集群安装-续

07 Spark 2.0集群部署和测试

08 RDD详解和创建RDD方式

09 RDD操作之Transform

10 RDD的Action操作和持久化persist()

11 Pair RDD操作

12 Pair RDD常用函数详解

13.Join和cogroup

14 添加Hive服务及设置Mysql元数据库

15 [项目案例]网站流量UV和PV的统计

16 [项目案例]会话二跳率的统计

17 Spark Sql基础练习

18 SparkSesion语法练习

19 [项目案例]使用SparkSesion进行流量分析

20 [项目案例]SparkSesion操作Hive

21 Idea里打包部署，作业结果验证

22 Spark Cli命令spark-sql的使用

23 spark-sql支持传参数的封装

24 spark-sql支持传参数的封装-续

25 UDF开发和运用

26 Spark读写Json、parquet文件

27 优化篇-控制数据分区和分布

28 Spark Streaming架构和概念

29 DStream的两种类型，API介绍

30 Kafka架构体系和概念

31 Kafka集群搭建和测试

32 Streaming读Kafka开发WordCount案例

33 使用updateStateByKey完善案例

34 按天计算地区销售额

35 时间窗口

36 去重类计算案例，以计算UV为例

37 [流计算项目]需求说明和架构设计

38 [流计算项目]HBase DAO类开发和测试

39 [流计算项目]Spark和Servlet代码详解

40 [流计算项目]Highcharts代码详解，项目运行

目标一、掌握Spark RDD 的Transforms和Actions操作，并能灵活运用。

目标二、掌握Spark Scala编程API及2.0新特性。

目标三、认识Spark在企业里不同场景的下的使用。

目标四、熟悉Spark 架构、优化、运维等。

亮点一、深入讲解Spark 2.0新特性和新API，帮助学员从基础开始快速占领行业技术制高点。

亮点二、课程里覆盖仍保留可用的Spark 1.x的内容，所以学习本课程不需要具备Spark 1.x的基础。

亮点三、课程采用前景较广阔的Scala编程语言，Scala让开发更简单和高效。

亮点四、课程里对Kafka也有深入系统的讲解，Kafka是当今较流行的MQ产品。

亮点五、课程里使用企业真实数据和场景，逐级深化和演变，让学员深入理解Spark技术在不同场景里运用。

亮点六、课程里针对RDD操作、SQL操作、Streaming操作均有企业真实案例场景，课程最后是Streaming的完整项目。

暂无课程目录～

暂无用户评论～

Spark 2.0快速上手

你将获得

教学服务

讲师介绍

课程详情