Spark 2.0快速上手

Spark 2.0快速上手

最近在学 4人 累计报名 2 好评度 - 收藏
  • 部分在线视频
更多班级

部分在线视频

支持随到随学,23年07月过期

免费

本班因教学质量问题暂时不能报名。 查看详情

课程因违反平台规定暂时不能报名。

立即报名

课程概述

课程目录

学员评论

老师介绍

杜丹晔

杜丹晔

11年毕业于合肥工业大学,具有多年j2ee开发工作经验,后转型从事软件教育行业,目前主教Android与Java课程,现任北风产品教学事业部线上就业课程教学主管一职。
刘明

刘明

刘老师,北风笔名gerry,5年软件开发从业经验,3年大数据开发经验。参与过旅游、电商、游戏等多个大型企业项目和大数据项目。先任北风网高级大数据讲师。
娄景亮

娄景亮

北风笔名闲筝,10多年软件教育行业从业经验,微软认证讲师,参与过数字化校园云平台、医疗保险、His等多个大型的企业项目开发,在服务端开发、前端开发、项目管理等方面均有着深刻的见解和实战经验,先后担任过国内某知名机构的项目经理以及国内知名IT高端培训机构的教学主管,现任北风首席产品研发经理。
史良

史良

史良,三年IT开发经验,后转型IT软件教育行业,并在国内某知名机构参与研发大数据专业课程与相关教材设计,并在研发期间获得“优秀研发专员“”称号嘉奖,熟悉Hadoop、HBase、spark等大数据核心技术及生态圈框架,现任北风网大数据讲师,获得首批教师资质考核认证。授课风格:深入浅出,接地气。
简  介 快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

Spark进入2.0时代,引入了很多优秀特性,性能上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智能”!

 

课程适用于Spark零基础或有一些基础的初级学员,帮助学员从基础开始快速占领技术制高点。

学习本课程不需要具备Spark 1.x的基础,因为课程里会覆盖仍保留可用的Spark 1.x的内容。需要Scala基础,课程中用Scala编程语言。

 

Spark是什么?

Spark 是 Apache 高级项目里面较火的大数据处理的计算引擎,包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。

与 Mapreduce 相比,Spark 具备 DAG 执行引擎以及基于内存的多轮迭代计算等优势,在SQL 层面上,比Hive/Pig引入了更多关系数据库的特性,以及内存管理技术。

Spark 基于磁盘的性能是 MR 的 10 倍,基于内存的性能是 MR 的 100 倍。

Spark 提供 SQL、机器学习库 MLlib、流计算 Streaming 和图计算 Graphx,同时也支持Scala、Java、Python和R语言开发的基于API的应用程序。

1.课程研发环

Spark 2.0

scala-2.11

Jdk1.7

IDE:IntelliJ IDEA

CDH5.7.1

Centos 6.5

Kafka  0.10

Highchart,JS图表框架,用于项目界面展示。

 

2.内容简介

本课程从基础开始,紧抓重点、言简意赅、深入浅出的讲解Spark 2.0,旨在学员能快速上手并灵活掌握。

课程以实操为主,提供完整详细的源码,供学员学习或应用到项目中。课程的课件也很详细,在学员不方便看视频的时候直接看课件并结合源码,同样可以达到很好的学习效果,并能大幅节省学习时间。

课程中编程语言采用当前较有前景的Scala,Hadoop采用Cloudera Hadoop的5.7.1版本,Kafka的0.10版本.

课程中对RDD操作、SQL、Streaming开发有非常深入系统的讲解,且围绕企业需求场景逐级展开和深化。

课程里不涉及当今企业里还比较少用的数据挖掘算法包MLlib和图计算模块部分。

Cloudy讲师,15年工作经验,近10年一直从事大数据技术领域,经历国内多家知名互联网企业,现就职国内一知名电商任数据部首席架构师。

主导公司Spark项目从无到有的建设,完成公司Hive到Spark的转变,当前Spark已承载数据部85%的离线作业和30%实时作业。

01 Spark架构体系,应用场景

02 Spark 2.0新特性一览

03 把Spark-examples导入到IntelliJ IDEA

04 Cloudera Manager安装

05 CDH5.7.1 集群安装

06 CDH5.7.1 集群安装-续

07 Spark 2.0集群部署和测试

08 RDD详解和创建RDD方式

09 RDD操作之Transform

10 RDD的Action操作和持久化persist()

11 Pair RDD操作

12 Pair RDD常用函数详解

13.Join和cogroup

14 添加Hive服务及设置Mysql元数据库

15 [项目案例]网站流量UV和PV的统计

16 [项目案例]会话二跳率的统计

17 Spark Sql基础练习

18 SparkSesion语法练习

19 [项目案例]使用SparkSesion进行流量分析

20 [项目案例]SparkSesion操作Hive

21 Idea里打包部署,作业结果验证

22 Spark Cli命令spark-sql的使用

23 spark-sql支持传参数的封装

24 spark-sql支持传参数的封装-续

25 UDF开发和运用

26 Spark读写Json、parquet文件

27 优化篇-控制数据分区和分布

28 Spark Streaming架构和概念

29 DStream的两种类型,API介绍

30 Kafka架构体系和概念

31 Kafka集群搭建和测试

32 Streaming读Kafka开发WordCount案例

33 使用updateStateByKey完善案例

34 按天计算地区销售额

35 时间窗口

36 去重类计算案例,以计算UV为例

37 [流计算项目]需求说明和架构设计

38 [流计算项目]HBase DAO类开发和测试

39 [流计算项目]Spark和Servlet代码详解

40 [流计算项目]Highcharts代码详解,项目运行











目标一、掌握Spark RDD 的Transforms和Actions操作,并能灵活运用。

 

目标二、掌握Spark Scala编程API及2.0新特性。

 

目标三、认识Spark在企业里不同场景的下的使用。

 

目标四、熟悉Spark 架构、优化、运维等。


 

亮点一、深入讲解Spark 2.0新特性和新API,帮助学员从基础开始快速占领行业技术制高点。     

 

亮点二、课程里覆盖仍保留可用的Spark 1.x的内容,所以学习本课程不需要具备Spark 1.x的基础。 

 

亮点三、课程采用前景较广阔的Scala编程语言,Scala让开发更简单和高效。

 

亮点四、课程里对Kafka也有深入系统的讲解,Kafka是当今较流行的MQ产品。

 

亮点五、课程里使用企业真实数据和场景,逐级深化和演变,让学员深入理解Spark技术在不同场景里运用。

 

亮点六、课程里针对RDD操作、SQL操作、Streaming操作均有企业真实案例场景,课程最后是Streaming的完整项目。




* 课程提供者:北风网

老师还为你推荐了以下几门课程