大数据实战工具Spark

8人 购买 好评度 - 收藏
  • 第三期
更多班级

第三期

支持随到随学,12月31日过期

¥199.00

本班因教学质量问题暂时不能报名。 查看详情

课程因违反平台规定暂时不能报名。

立即购买 咨询 在线 电话

课程概述

课程目录

学员评论

老师介绍

San

San

12年开始接触Hadoop,14年7月开始从事Spark技术研究并应用于项目和产品上,曾在北京红象云腾,上海华点云等公司担任Spark工程师。在PPV完成了Spark相关课程的培训。已通过Databrick的Certificated Developer for Apache Spark认证。
简  介 1. 学习Spark配置,掌握Spark集群部署; 2. 学习RDD和Scala,掌握Spark调优和应用开发; 3. 掌握Spark Streaming、Spark Sql使用技巧; 4. 学习MLib、SparkR和其他Spark生态组件;


学习内容

第一讲_spark简介

Ø spark介绍

Ø Sparkhadoop的比较

Ø Spark的使用场景介绍

Ø spark软件栈

Ø 动手搭建一个最简单的spark集群

Ø 运行例子程序SparkPi

实战 : 单节点的 spark 部署和运行 SparkPi

 

第二讲_spark部署模式介绍

Ø Spark部署模式OverView

Ø Spark启动过程详解

Ø Spark集群部署之Standalone

Ø Spark集群部署之Spark on Yarn

Ø Spark集群部署之Spark on Mesos

实战 : 完全分布式的 spark standalone spark on yarn 模式的动手实战

 

第三讲_spark集群硬件,开发语言和java版本的选择

Ø spark集群硬件配置

Ø spark开发的语言选择

Ø Java版本的选择
 

第四讲_sparkrdd及其操作介绍

Ø RDD介绍及创建

Ø RDD的操作

Ø RDD函数传递

Ø 闭包

Ø shuffle介绍

Ø RDD的持久化

Ø 共享变量

Ø 常用transformationactionAPI介绍

Ø spark-shell里动手实战wordcount及常用API

Ø Scala介绍

实战:动手在Sparkshell中编写wordcountlinecount,以及动手实验常用的RDD操作。
 

第五讲_SparkSQLDataFrame讲解

Ø SparkSQL简介

Ø SparkSQLDataframeSave&Load

Ø SparkSQLDataframe介绍及创建

Ø SparkSQLDataframeParquet

Ø SparkSQLDataframeJson&HiveTables

Ø SparkSQLDataframeJDBC&PerformanceTuning&Cli&ThriftServer

实战: Sparksql Dataframe 创建,配置, SparkSQL 连接 hive ,及 ThriftServer.

 

第六讲_SparkStreamingDStream介绍

Ø SparkStreamingdemo和介绍

Ø DStreamDataSource

Ø DStreamTransformationoutput

Ø DStream持久化,checkpoint,以及和DataFrame的交互

Ø SparkStreaming应用的部署和监控

实战:1) Spark Streaming应用的监控与分析

 

第七讲_SparkStreaming性能调优,容错和Kafka集成

Ø SparkStreaming的性能调优

Ø SparkStreaming的容错

Ø SparkStreamingKafka的集成

 

第八讲 __SparkSQL 项目实战之文本比对

实战:在spark上开发一个文本比对的SparkSQL的应用

 

第九讲_SparkStreaming+SparkSQL+Kafka项目实战开发

实战:在第八讲的基础上,继续开发一个sparkstreaming结合sparksqlkafka的流数据处理应用



PPV课答疑群
      Spark实战 137530550 (凭报名审核进群)  
 

资料下载报名后支持下载

* 课程提供者:数据咖学堂

老师还为你推荐了以下几门课程