老师介绍
简 介 | 快速掌握Spark2.4新特性,能熟练使用和操作,胜任企业级的开发。 |
---|
课程购买咨询和资料获取请加老师QQ 2020363447
开发工具
IDEA
Spark: 2.4
Hadoop: 2.7
本课程讲解大规模数据处理的统一分析引擎—Spark2.4。在本课程中基于大量案例实战,深度剖析和讲解Spark2.4原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。除Spark2.4全体系外还包含机器学习、算法、推荐系统等。
本套大型Spark2.4架构师系列教程共计13季,本套为第三季。
课程目录:
第三季
01.Dag图考察-repartition-coalsce-分区优化-并行度设置
02.AggregateByKey-reduceByKey-groupByKey方法原理考察
03.textFile文件加载与rdd变换过程考察-rose时序图使用
04.依赖关系-narrowdep-shuffledep-range-prune
05.stage-shuffleMapStage-ResultStage
06.Task-ShuffleMapTask-ResutlTask
07.DagScheduler-taskSchduler-SchedulerBackend-activeJob
08.阶段提交过程-阶段计算过程
09.Task计算-missingTasksSubmit
10.注册应用-资源分配-启动执行器
11.Task执行过程-rdd方法调用关系
13季全部掌握可以达到如下效果:
1.代码和原理驱动讲解Spark2.4的各个技术点(全部手敲代码),全程图文解读
2.能够对常见的Spark2.4性能问题,使用各种技术进行性能调优
3.熟练掌握Spark2.4全体系的知识和操作,可以开发各种复杂的大数据离线批处理程序
4.透彻理解Spark2.4新特性和原理,可以对Spark企业级案例,进行调优和故障排查
5.能熟练对Spark2.4、Sclala、Kafka、机器学习、朴素贝叶斯算法等技术融汇贯通
* 课程提供者:北京思无限科技有限责任公司