老师介绍
简 介 | 1. 学习Spark配置,掌握Spark集群部署; 2. 学习RDD和Scala,掌握Spark调优和应用开发; 3. 掌握Spark Streaming、Spark Sql使用技巧; 4. 学习MLib、SparkR和其他Spark生态组件; |
---|
学习内容
第一讲_spark简介
Ø spark介绍
Ø Spark与hadoop的比较
Ø Spark的使用场景介绍
Ø spark软件栈
Ø 动手搭建一个最简单的spark集群
Ø 运行例子程序SparkPi
实战 : 单节点的 spark 部署和运行 SparkPi
第二讲_spark部署模式介绍
Ø Spark部署模式OverView
Ø Spark启动过程详解
Ø Spark集群部署之Standalone
Ø Spark集群部署之Spark on Yarn
Ø Spark集群部署之Spark on Mesos
实战 : 完全分布式的 spark standalone 和 spark on yarn 模式的动手实战
第三讲_spark集群硬件,开发语言和java版本的选择
Ø spark集群硬件配置
Ø spark开发的语言选择
Ø Java版本的选择
第四讲_spark的rdd及其操作介绍
Ø RDD介绍及创建
Ø RDD的操作
Ø RDD函数传递
Ø 闭包
Ø shuffle介绍
Ø RDD的持久化
Ø 共享变量
Ø 常用transformation和action的API介绍
Ø 在spark-shell里动手实战wordcount及常用API
Ø Scala介绍
实战:动手在Sparkshell中编写wordcount和linecount,以及动手实验常用的RDD操作。
第五讲_SparkSQL及DataFrame讲解
Ø SparkSQL简介
Ø SparkSQL之DataframeSave&Load
Ø SparkSQL之Dataframe介绍及创建
Ø SparkSQL之DataframeParquet
Ø SparkSQL之DataframeJson&HiveTables
Ø SparkSQL之DataframeJDBC&PerformanceTuning&Cli&ThriftServer
实战: Sparksql 的 Dataframe 创建,配置, SparkSQL 连接 hive ,及 ThriftServer.
第六讲_SparkStreaming和DStream介绍
Ø SparkStreaming的demo和介绍
Ø DStream和DataSource
Ø DStream的Transformation和output
Ø DStream持久化,checkpoint,以及和DataFrame的交互
Ø SparkStreaming应用的部署和监控
实战:1) Spark Streaming应用的监控与分析
第七讲_SparkStreaming性能调优,容错和Kafka集成
Ø SparkStreaming的性能调优
Ø SparkStreaming的容错
Ø SparkStreaming与Kafka的集成
第八讲 __SparkSQL 项目实战之文本比对
实战:在spark上开发一个文本比对的SparkSQL的应用
第九讲_SparkStreaming+SparkSQL+Kafka项目实战开发
实战:在第八讲的基础上,继续开发一个sparkstreaming结合sparksql和kafka的流数据处理应用
PPV课答疑群
Spark实战 137530550 (凭报名审核进群)
资料下载报名后支持下载
* 课程提供者:数据咖学堂