老师介绍
简 介 | 快速掌握Spark2.4新特性,能熟练使用和操作,胜任企业级的开发。 |
---|
课程购买咨询和资料获取请加老师QQ 2020363447
开发工具
IDEA
Spark: 2.4
Hadoop: 2.7
本课程讲解大规模数据处理的统一分析引擎—Spark2.4。在本课程中基于大量案例实战,深度剖析和讲解Spark2.4原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。除Spark2.4全体系外还包含机器学习、算法、推荐系统等。
本套大型Spark2.4架构师系列教程共计13季,本套为第五季。
课程目录:
第五季
01.spark资源控制回顾-守护进程资源控制-job的资源分配
02.spark rdd和dep在task中的传播方式
03.BT技术介绍
04.spark广播变量的api编程使用与性能评测
05.spark广播变量原理分析
06.spark累加器原理与功能测试
07.spark自定义累加器实现气温数据双聚合
08.spark shufflemanager-sortShuffleManager介绍
09.spark shuffle产生输出的写入方式-串行方式-非串行方式
10.spark shuffle 串行化模式优化手段-零拷贝原理
11.spark shuffle map task创建ShuffleWriter原理分析
12.spark shuffle的类设计
13.spark shuffle依赖关系图分析
14.spark shuffle manager注册ShuffleHandle详解
15.BypassMergeSortShuffleWriter写过构成详解
16.UnsafeShuffleWriter原理分析
13季全部掌握可以达到如下效果:
1.代码和原理驱动讲解Spark2.4的各个技术点(全部手敲代码),全程图文解读
2.能够对常见的Spark2.4性能问题,使用各种技术进行性能调优
3.熟练掌握Spark2.4全体系的知识和操作,可以开发各种复杂的大数据离线批处理程序
4.透彻理解Spark2.4新特性和原理,可以对Spark企业级案例,进行调优和故障排查
5.能熟练对Spark2.4、Sclala、Kafka、机器学习、朴素贝叶斯算法等技术融汇贯通
* 课程提供者:北京思无限科技有限责任公司