课程购买咨询和资料获取请加老师QQ 2020363447
本课程讲解大规模数据处理的统一分析引擎—Spark。在本课程中基于大量案例实战,深度剖析和讲解Spark原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。除Spark全体系外还包含机器学习、算法、推荐系统等。
本套大型Spark架构师系列教程共计13季,本套为第五季。
课程目录:
第五季
01.spark资源控制回顾-守护进程资源控制-job的资源分配
02.spark rdd和dep在task中的传播方式
03.BT技术介绍
04.spark广播变量的api编程使用与性能评测
05.spark广播变量原理分析
06.spark累加器原理与功能测试
07.spark自定义累加器实现气温数据双聚合
08.spark shufflemanager-sortShuffleManager介绍
09.spark shuffle产生输出的写入方式-串行方式-非串行方式
10.spark shuffle 串行化模式优化手段-零拷贝原理
11.spark shuffle map task创建ShuffleWriter原理分析
12.spark shuffle的类设计
13.spark shuffle依赖关系图分析
14.spark shuffle manager注册ShuffleHandle详解
15.BypassMergeSortShuffleWriter写过构成详解
16.UnsafeShuffleWriter原理分析
13季全部掌握可以达到如下效果:
1.代码和原理驱动讲解Spark的各个技术点(全部手敲代码),全程图文解读
2.能够对常见的Spark性能问题,使用各种技术进行性能调优
3.熟练掌握Spark全体系的知识和操作,可以开发各种复杂的大数据离线批处理程序
4.透彻理解Spark新特性和原理,可以对Spark企业级案例,进行调优和故障排查
5.能熟练对Spark、Sclala、Kafka、机器学习、朴素贝叶斯算法等技术融汇贯通