2019年IDEA版Spark2.4新特性从入门到精通教程(源码分析)

9人 购买 好评度 -
用手机看

扫一扫继续用手机看

  • 微信扫码

  • QQ扫码

下载手机APP
收藏
  • 第一期
更多班级

第一期

支持随到随学,24年08月过期

¥866.22

本班因教学质量问题暂时不能报名。 查看详情

课程因违反平台规定暂时不能报名。

立即购买

课程概述

目录

评论

老师介绍

  • 徐培成

    徐培成

    多年开发和教学经验,技术全才。十八掌教育创始人,精通Java,大数据,Python等编程语言和技术框架; 授课10年,被学生称为顶尖高手! 讲课特点: 全部干货,拒绝忽悠,拒绝废话,上来就干! 庖丁解牛,剥茧抽丝,行云流水,大彻大悟,让你听课听到兴奋!
简  介 本课程讲解大规模数据处理的统一分析引擎—Spark2.4。在本课程中基于大量案例实战,深度剖析和讲解Spark2.4原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战
视频购买咨询请加QQ  2237291613 

Apache Spark 2.4 版本是 2.x 系列的第五个版本


本课程讲解大规模数据处理的统一分析引擎—Spark2.4。在本课程中基于大量案例实战,深度剖析和讲解Spark2.4原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。除Spark2.4全体系外还包含机器学习、算法、推荐系统等。

本系列课程分为上下两部,本套课程为上部,下部为2019年机器学习从入门到精通(原理剖析、实战为王)

视频目录:
001.大数据回顾
002.spark介绍-快速-通用-简单-场景多样
003.spark安装与验证
004.spark-shell下实现worcount-链式编程
005.idea下使用spark.2.4.0实现wordcount统计scala实现
006.idea下使用spark.2.4.0实现wordcount统计显式声明变量类型
007.idea实现wordcount java API.avi
008.idea实现历年最高气温统计scala实现
009.idea实现历年最高气温统计-升降序排列-java实现
010.scala的SeqWrapper类排序不支持原因考察
011.scala的气温数据的多指标聚合
012.spark集群模式介绍-local-standalone-yarn
013.spark 独立集群部署
014.spark-shell在集群模式运行-使用静态数据-观察DAG
015.spark集群和hdfs集成
016.部署程序到spark集群上执行
017.spark回顾
018.标签生成需求分析-json串解析
019.标签生成需求分析-使用存scala实现标签生成
020.标签生成-使用spark实现scala版
021.标签生成-使用spark实现taggen java版
022.spark rdd分析-hadoop mr流程回顾
023.spark rdd分析-hadoop提交流程回顾
024.spark rdd常用操作-mapPartitons-foreachPartition
025.spark rdd常用操作-sample-Random Seed
026.spark rdd常用操作-union
027.spark rdd常用操作-intersection
028.spark rdd常用操作-distinct
029.spark rdd常用操作-GroupByKey
030.spark rdd常用操作-join-leftOuterJoin-fullOuterJoin
031.spark rdd常用操作-cogroup
032.Dag图考察-repartition-coalsce-分区优化-并行度设置
033.AggregateByKey-reduceByKey-groupByKey方法原理考察
034.textFile文件加载与rdd变换过程考察-rose时序图使用
035.依赖关系-narrowdep-shuffledep-range-prune
036.stage-shuffleMapStage-ResultStage
037.Task-ShuffleMapTask-ResutlTask
038.DagScheduler-taskSchduler-SchedulerBackend-activeJob
039.阶段提交过程-阶段计算过程
040.Task计算-missingTasksSubmit
041.注册应用-资源分配-启动执行器
042.Task执行过程-rdd方法调用关系
043.回顾spark核心组件和逻辑关系图
044.回顾spark job执行流程-两步走
045.作业讲解-aggregateByKey实现分区索引携带
046.数据倾斜处理-重新设计key-自定义随机分区
047.spark job部署模式介绍-部署模式与集群模式组合
048.spark job cluster-standalone组合模式考察进程
049.spark yarn部署模式
050.spark yarn-client job部署模式考察
051.关闭hadoop虚拟内存和物理内存检查配置.avi
052.配置spark.yarn.archive属性避免每次上传spark类库
053.yarn-cluser配置
054.spark standalone资源配置-daemon进程内存-worker资源配置
055.spark worker数-集群管理命令
056.spark job standalone clisent模式下资源配置-cores-memory
057.spark job yarn client模式资源配置
058.编写spark远程调试函数sendInfo
059.task占用core配置-分布式task执行情况考察
060.spark资源控制回顾-守护进程资源控制-job的资源分配
061.spark rdd和dep在task中的传播方式
062.BT技术介绍
063.spark广播变量的api编程使用与性能评测
064.spark广播变量原理分析
065.spark累加器原理与功能测试
066.spark自定义累加器实现气温数据双聚合
067.spark shufflemanager-sortShuffleManager介绍
068.spark shuffle产生输出的写入方式-串行方式-非串行方式
069.spark shuffle 串行化模式优化手段-零拷贝原理
070.spark shuffle map task创建ShuffleWriter原理分析
071.spark shuffle的类设计
072.spark shuffle依赖关系图分析
073.spark shuffle manager注册ShuffleHandle详解
074.BypassMergeSortShuffleWriter写过构成详解
075.UnsafeShuffleWriter原理分析
076.shuffle机制回顾
077.UnfaseShuffleWriter溢出过程源代码分析
078.UnfaseShuffleWriter溢出过程Rose分析
079.SortShuffleWriter源代码分析
080.Spark Shuffle总结
081.spark textFile默认最小分区源代码分析
082.spark内存管理-结构划分
083.spark-shell测试-内存分配-保留内存控制
084.spark内存的管理的源代码考察
085.spark rdd缓存机制源代码分析
086.spark与hive集成
087.spark与hive集成-关闭schema版本检查
088.spark sql调用hive函数-查看hive函数帮助
089.spark sql在idea下的编程开发
090.spark sql在idea下的java编程-DataFrame cache
091.回顾spark内存管理-sqlhive集成
092.spark sql实现hdfs文件的word count scala版
093.spark sql实现hdfs文件的word count java版
094.spark sql实现客户订单的做外链接查询java实现
095.spark sql 保存DataFrame成json格式
096.spark sql读取json数据成为DataFrame
097.spark sql 保存DataFrame成Parquet格式
098.spark sql 读取Parquet格式形成DataFrame
099.spark sql 保存DataFrame到mysql数据库
100.spark sql 读取mysql数据库表数据
101.spark sql作为分布式查询引擎
102.spark sql分布式查询引擎API编程访问
103.spark streaming实现word count统计scala实现
104.spark streaming实现word count java实现
105.spark streaming流上下文介绍-Receiver注意事项
106.spark streaming socket文本流内部分区考察
107.spark streaming socket块间隔设置与考察
108.spark streaming回顾-限速处理
109.spark streaming windows操作
110.spark streaming updateStateByKey更新所有key数据
111.spark streaming 使用updateStateByKey实现windows操作
112.spark streaming解决大量小文件问题
113.spark streaming rdd内分区数据的计算法则
114.spark streaming与SQL集成
115.spark streaming与SQL java实现 wordcount
116.spark streaming与kafka集成
117.spark streaming与kafka集成-LocationStragegy考察-编程处理
118.spark streaming与kafka集成-LocationStragegy考察-部署-结果验证
119.spark streaming与kafka集成-PreferFixed LocationStragegy考察-部署-结果验证
120.spark streaming与kafka集成-ConsumerStrategy-Assgin模式考察
121.kafka消费者偏移量手提交原理分析
122.kafka消费者偏移量手提交偏移量实践
123.kafka消费语义保证
124.kafka精准消费一次语义保证-创建消费记录表
125.kafka精准消费一次语义保证-编写消费代码-事务管理
126.kafka精准消费一次语义保证-测试代码
127.kafka精准消费一次语义保证-spark内部参数修改问题
128.kafka精准消费一次语义保证-java代码实现
129.配置spark master的HA模式


 

资料下载报名后支持下载

* 课程提供者:IT十八掌

老师还为你推荐了以下几门课程