课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

讲师介绍

  • 11年毕业于合肥工业大学,具有多年j2ee开发工作经验,后转型从事软件教育行业,目前主教Android与Java课程,现任北风产品教学事业部线上就业课程教学主管一职。

  • 刘老师,北风笔名gerry,5年软件开发从业经验,3年大数据开发经验。参与过旅游、电商、游戏等多个大型企业项目和大数据项目。先任北风网高级大数据讲师。

  • 北风笔名闲筝,10多年软件教育行业从业经验,微软认证讲师,参与过数字化校园云平台、医疗保险、His等多个大型的企业项目开发,在服务端开发、前端开发、项目管理等方面均有着深刻的见解和实战经验,先后担任过国内某知名机构的项目经理以及国内知名IT高端培训机构的教学主管,现任北风首席产品研发经理。

  • 史良,三年IT开发经验,后转型IT软件教育行业,并在国内某知名机构参与研发大数据专业课程与相关教材设计,并在研发期间获得“优秀研发专员“”称号嘉奖,熟悉Hadoop、HBase、spark等大数据核心技术及生态圈框架,现任北风网大数据讲师,获得首批教师资质考核认证。授课风格:深入浅出,接地气。

  • 课程详情

    Spark进入2.0时代,引入了很多优秀特性,性能上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智能”!

     

    课程适用于Spark零基础或有一些基础的初级学员,帮助学员从基础开始快速占领技术制高点。

    学习本课程不需要具备Spark 1.x的基础,因为课程里会覆盖仍保留可用的Spark 1.x的内容。需要Scala基础,课程中用Scala编程语言。

     

    Spark是什么?

    Spark 是 Apache 高级项目里面较火的大数据处理的计算引擎,包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。

    与 Mapreduce 相比,Spark 具备 DAG 执行引擎以及基于内存的多轮迭代计算等优势,在SQL 层面上,比Hive/Pig引入了更多关系数据库的特性,以及内存管理技术。

    Spark 基于磁盘的性能是 MR 的 10 倍,基于内存的性能是 MR 的 100 倍。

    Spark 提供 SQL、机器学习库 MLlib、流计算 Streaming 和图计算 Graphx,同时也支持Scala、Java、Python和R语言开发的基于API的应用程序。

    1.课程研发环

    Spark 2.0

    scala-2.11

    Jdk1.7

    IDE:IntelliJ IDEA

    CDH5.7.1

    Centos 6.5

    Kafka  0.10

    Highchart,JS图表框架,用于项目界面展示。

     

    2.内容简介

    本课程从基础开始,紧抓重点、言简意赅、深入浅出的讲解Spark 2.0,旨在学员能快速上手并灵活掌握。

    课程以实操为主,提供完整详细的源码,供学员学习或应用到项目中。课程的课件也很详细,在学员不方便看视频的时候直接看课件并结合源码,同样可以达到很好的学习效果,并能大幅节省学习时间。

    课程中编程语言采用当前较有前景的Scala,Hadoop采用Cloudera Hadoop的5.7.1版本,Kafka的0.10版本.

    课程中对RDD操作、SQL、Streaming开发有非常深入系统的讲解,且围绕企业需求场景逐级展开和深化。

    课程里不涉及当今企业里还比较少用的数据挖掘算法包MLlib和图计算模块部分。

    Cloudy讲师,15年工作经验,近10年一直从事大数据技术领域,经历国内多家知名互联网企业,现就职国内一知名电商任数据部首席架构师。

    主导公司Spark项目从无到有的建设,完成公司Hive到Spark的转变,当前Spark已承载数据部85%的离线作业和30%实时作业。

    01 Spark架构体系,应用场景

    02 Spark 2.0新特性一览

    03 把Spark-examples导入到IntelliJ IDEA

    04 Cloudera Manager安装

    05 CDH5.7.1 集群安装

    06 CDH5.7.1 集群安装-续

    07 Spark 2.0集群部署和测试

    08 RDD详解和创建RDD方式

    09 RDD操作之Transform

    10 RDD的Action操作和持久化persist()

    11 Pair RDD操作

    12 Pair RDD常用函数详解

    13.Join和cogroup

    14 添加Hive服务及设置Mysql元数据库

    15 [项目案例]网站流量UV和PV的统计

    16 [项目案例]会话二跳率的统计

    17 Spark Sql基础练习

    18 SparkSesion语法练习

    19 [项目案例]使用SparkSesion进行流量分析

    20 [项目案例]SparkSesion操作Hive

    21 Idea里打包部署,作业结果验证

    22 Spark Cli命令spark-sql的使用

    23 spark-sql支持传参数的封装

    24 spark-sql支持传参数的封装-续

    25 UDF开发和运用

    26 Spark读写Json、parquet文件

    27 优化篇-控制数据分区和分布

    28 Spark Streaming架构和概念

    29 DStream的两种类型,API介绍

    30 Kafka架构体系和概念

    31 Kafka集群搭建和测试

    32 Streaming读Kafka开发WordCount案例

    33 使用updateStateByKey完善案例

    34 按天计算地区销售额

    35 时间窗口

    36 去重类计算案例,以计算UV为例

    37 [流计算项目]需求说明和架构设计

    38 [流计算项目]HBase DAO类开发和测试

    39 [流计算项目]Spark和Servlet代码详解

    40 [流计算项目]Highcharts代码详解,项目运行











    目标一、掌握Spark RDD 的Transforms和Actions操作,并能灵活运用。

     

    目标二、掌握Spark Scala编程API及2.0新特性。

     

    目标三、认识Spark在企业里不同场景的下的使用。

     

    目标四、熟悉Spark 架构、优化、运维等。


     

    亮点一、深入讲解Spark 2.0新特性和新API,帮助学员从基础开始快速占领行业技术制高点。     

     

    亮点二、课程里覆盖仍保留可用的Spark 1.x的内容,所以学习本课程不需要具备Spark 1.x的基础。 

     

    亮点三、课程采用前景较广阔的Scala编程语言,Scala让开发更简单和高效。

     

    亮点四、课程里对Kafka也有深入系统的讲解,Kafka是当今较流行的MQ产品。

     

    亮点五、课程里使用企业真实数据和场景,逐级深化和演变,让学员深入理解Spark技术在不同场景里运用。

     

    亮点六、课程里针对RDD操作、SQL操作、Streaming操作均有企业真实案例场景,课程最后是Streaming的完整项目。