课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

讲师介绍

  • 多年开发和教学经验,技术全才。十八掌教育创始人,精通Java,大数据,Python等编程语言和技术框架; 授课10年,被学生称为顶尖高手! 讲课特点: 全部干货,拒绝忽悠,拒绝废话,上来就干! 庖丁解牛,剥茧抽丝,行云流水,大彻大悟,让你听课听到兴奋!

  • 课程详情

    视频购买咨询请加QQ  613385945

    Apache Spark 2.4 版本是 2.x 系列的第五个版本


    本课程讲解大规模数据处理的统一分析引擎—Spark2.4。在本课程中基于大量案例实战,深度剖析和讲解Spark2.4原理和新特性,且会包含完全从企业真实业务需求中抽取出的案例实战。除Spark2.4全体系外还包含机器学习、算法、推荐系统等。

    本系列课程分为上下两部,本套课程为上部,下部为2019年机器学习从入门到精通(原理剖析、实战为王)

    视频目录:
    001.大数据回顾
    002.spark介绍-快速-通用-简单-场景多样
    003.spark安装与验证
    004.spark-shell下实现worcount-链式编程
    005.idea下使用spark.2.4.0实现wordcount统计scala实现
    006.idea下使用spark.2.4.0实现wordcount统计显式声明变量类型
    007.idea实现wordcount java API.avi
    008.idea实现历年最高气温统计scala实现
    009.idea实现历年最高气温统计-升降序排列-java实现
    010.scala的SeqWrapper类排序不支持原因考察
    011.scala的气温数据的多指标聚合
    012.spark集群模式介绍-local-standalone-yarn
    013.spark 独立集群部署
    014.spark-shell在集群模式运行-使用静态数据-观察DAG
    015.spark集群和hdfs集成
    016.部署程序到spark集群上执行
    017.spark回顾
    018.标签生成需求分析-json串解析
    019.标签生成需求分析-使用存scala实现标签生成
    020.标签生成-使用spark实现scala版
    021.标签生成-使用spark实现taggen java版
    022.spark rdd分析-hadoop mr流程回顾
    023.spark rdd分析-hadoop提交流程回顾
    024.spark rdd常用操作-mapPartitons-foreachPartition
    025.spark rdd常用操作-sample-Random Seed
    026.spark rdd常用操作-union
    027.spark rdd常用操作-intersection
    028.spark rdd常用操作-distinct
    029.spark rdd常用操作-GroupByKey
    030.spark rdd常用操作-join-leftOuterJoin-fullOuterJoin
    031.spark rdd常用操作-cogroup
    032.Dag图考察-repartition-coalsce-分区优化-并行度设置
    033.AggregateByKey-reduceByKey-groupByKey方法原理考察
    034.textFile文件加载与rdd变换过程考察-rose时序图使用
    035.依赖关系-narrowdep-shuffledep-range-prune
    036.stage-shuffleMapStage-ResultStage
    037.Task-ShuffleMapTask-ResutlTask
    038.DagScheduler-taskSchduler-SchedulerBackend-activeJob
    039.阶段提交过程-阶段计算过程
    040.Task计算-missingTasksSubmit
    041.注册应用-资源分配-启动执行器
    042.Task执行过程-rdd方法调用关系
    043.回顾spark核心组件和逻辑关系图
    044.回顾spark job执行流程-两步走
    045.作业讲解-aggregateByKey实现分区索引携带
    046.数据倾斜处理-重新设计key-自定义随机分区
    047.spark job部署模式介绍-部署模式与集群模式组合
    048.spark job cluster-standalone组合模式考察进程
    049.spark yarn部署模式
    050.spark yarn-client job部署模式考察
    051.关闭hadoop虚拟内存和物理内存检查配置.avi
    052.配置spark.yarn.archive属性避免每次上传spark类库
    053.yarn-cluser配置
    054.spark standalone资源配置-daemon进程内存-worker资源配置
    055.spark worker数-集群管理命令
    056.spark job standalone clisent模式下资源配置-cores-memory
    057.spark job yarn client模式资源配置
    058.编写spark远程调试函数sendInfo
    059.task占用core配置-分布式task执行情况考察
    060.spark资源控制回顾-守护进程资源控制-job的资源分配
    061.spark rdd和dep在task中的传播方式
    062.BT技术介绍
    063.spark广播变量的api编程使用与性能评测
    064.spark广播变量原理分析
    065.spark累加器原理与功能测试
    066.spark自定义累加器实现气温数据双聚合
    067.spark shufflemanager-sortShuffleManager介绍
    068.spark shuffle产生输出的写入方式-串行方式-非串行方式
    069.spark shuffle 串行化模式优化手段-零拷贝原理
    070.spark shuffle map task创建ShuffleWriter原理分析
    071.spark shuffle的类设计
    072.spark shuffle依赖关系图分析
    073.spark shuffle manager注册ShuffleHandle详解
    074.BypassMergeSortShuffleWriter写过构成详解
    075.UnsafeShuffleWriter原理分析
    076.shuffle机制回顾
    077.UnfaseShuffleWriter溢出过程源代码分析
    078.UnfaseShuffleWriter溢出过程Rose分析
    079.SortShuffleWriter源代码分析
    080.Spark Shuffle总结
    081.spark textFile默认最小分区源代码分析
    082.spark内存管理-结构划分
    083.spark-shell测试-内存分配-保留内存控制
    084.spark内存的管理的源代码考察
    085.spark rdd缓存机制源代码分析
    086.spark与hive集成
    087.spark与hive集成-关闭schema版本检查
    088.spark sql调用hive函数-查看hive函数帮助
    089.spark sql在idea下的编程开发
    090.spark sql在idea下的java编程-DataFrame cache
    091.回顾spark内存管理-sqlhive集成
    092.spark sql实现hdfs文件的word count scala版
    093.spark sql实现hdfs文件的word count java版
    094.spark sql实现客户订单的做外链接查询java实现
    095.spark sql 保存DataFrame成json格式
    096.spark sql读取json数据成为DataFrame
    097.spark sql 保存DataFrame成Parquet格式
    098.spark sql 读取Parquet格式形成DataFrame
    099.spark sql 保存DataFrame到mysql数据库
    100.spark sql 读取mysql数据库表数据
    101.spark sql作为分布式查询引擎
    102.spark sql分布式查询引擎API编程访问
    103.spark streaming实现word count统计scala实现
    104.spark streaming实现word count java实现
    105.spark streaming流上下文介绍-Receiver注意事项
    106.spark streaming socket文本流内部分区考察
    107.spark streaming socket块间隔设置与考察
    108.spark streaming回顾-限速处理
    109.spark streaming windows操作
    110.spark streaming updateStateByKey更新所有key数据
    111.spark streaming 使用updateStateByKey实现windows操作
    112.spark streaming解决大量小文件问题
    113.spark streaming rdd内分区数据的计算法则
    114.spark streaming与SQL集成
    115.spark streaming与SQL java实现 wordcount
    116.spark streaming与kafka集成
    117.spark streaming与kafka集成-LocationStragegy考察-编程处理
    118.spark streaming与kafka集成-LocationStragegy考察-部署-结果验证
    119.spark streaming与kafka集成-PreferFixed LocationStragegy考察-部署-结果验证
    120.spark streaming与kafka集成-ConsumerStrategy-Assgin模式考察
    121.kafka消费者偏移量手提交原理分析
    122.kafka消费者偏移量手提交偏移量实践
    123.kafka消费语义保证
    124.kafka精准消费一次语义保证-创建消费记录表
    125.kafka精准消费一次语义保证-编写消费代码-事务管理
    126.kafka精准消费一次语义保证-测试代码
    127.kafka精准消费一次语义保证-spark内部参数修改问题
    128.kafka精准消费一次语义保证-java代码实现
    129.配置spark master的HA模式


     
    温馨提示
    • 请勿私下交易
      请勿在平台外交易。与机构和老师私下交易造成的任何损失及纠纷,腾讯课堂不承担任何责任
    • 听课说明

      1、电脑:访问腾讯课堂官网 ke.qq.com 查看我的课表或下载win/mac客户端听课

      2、手机/平板:下载腾讯课堂APP, 进入学习页面听课