课程购买咨询和资料获取请加老师QQ 2020363447
本课程讲解大规模数据处理的统一分析引擎—Spark。在本课程中基于大量案例实战,深度剖析和讲解Spark原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。除Spark全体系外还包含机器学习、算法、推荐系统等。
本套大型Spark架构师系列教程共计13季,本套为第四季。
课程目录:
第四季
01.回顾spark核心组件和逻辑关系图
02.回顾spark job执行流程-两步走
03.作业讲解-aggregateByKey实现分区索引携带
04.数据倾斜处理-重新设计key-自定义随机分区
05.spark job部署模式介绍-部署模式与集群模式组合
06.spark job cluster-standalone组合模式考察进程
07.spark yarn部署模式
08.spark yarn-client job部署模式考察
09.关闭hadoop虚拟内存和物理内存检查配置
10.配置spark.yarn.archive属性避免每次上传spark类库
11.yarn-cluser配置
12.spark standalone资源配置-daemon进程内存-worker资源配置
13.spark worker数-集群管理命令
14.spark job standalone clisent模式下资源配置-cores-memory
15.spark job yarn client模式资源配置
16.编写spark远程调试函数sendInfo
17.task占用core配置-分布式task执行情况考察
13季全部掌握可以达到如下效果:
1.代码和原理驱动讲解Spark的各个技术点(全部手敲代码),全程图文解读
2.能够对常见的Spark性能问题,使用各种技术进行性能调优
3.熟练掌握Spark全体系的知识和操作,可以开发各种复杂的大数据离线批处理程序
4.透彻理解Spark新特性和原理,可以对Spark企业级案例,进行调优和故障排查
5.能熟练对Spark、Sclala、Kafka、机器学习、朴素贝叶斯算法等技术融汇贯通