课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

讲师介绍

  • 码上学团队致力于打造 [ 大数据与数据科学 (新IT)  ]领域集产品、教学、培训、人才输出于一体的“一站式”企业人才培养解决方案。

  • 课程详情

    本课程照顾到零基础学员,从最基础的Linux入手,到Hadoop技术,再到Spark官方指定语言Scala,再到最后的SparkSQL,Spark Stream技术,一站式全链路教学,Spark技术一课搞定,电商项目全程贯穿,如果您是一个从未接触过Spark技术的小白,如果您对Spark流实时计算技术感举趣,那么此套课程一定是你需要的


    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    Spark 有以下三个特点:

    首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
    其次,Spark 很快,支持交互式计算和复杂算法。
    最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

    Linux+Hadoop+Scala+Spark 淘宝电商用户行为分析实战

    最适合小白学习的Spark 大数据实时技术教程

    Spark最短学习路径,轻松上手,学途无忧

    课件完整,思路清晰,讲师手把手一步步带你搭建学习环境,细致入微

    适用人群

    1、具有一定的Java语言基础
    2、希望从零快速上手Spark技术开发的在职大数据开发人员
    3、对 Spark 实时流开发技术感兴趣的大数据开发人员

    课程使用软件版本

    CentOS-6.6-x86_64
    jdk-8u45-windows-x64
    jdk-8u171-linux-x64
    NetSarangXmanagerEnterprise5
    VMware-workstation-full-14.1.2-8497320
    hadoop-2.6.0-cdh5.7.6
    ideaIC-2018.2.6
    scala-2.11.8
    apache-maven-3.3.9
    spark-2.2.0

    一、Linux篇
    1、课程介绍和服务器介绍以及虚拟计算机的创建
    2、Linux系统介绍
    3、Linux系统安装配置(一)
    4、Linux系统安装配置(二)
    5、hostname介绍和配置
    6、关闭虚拟机
    7、远程工具介绍和连接
    8、基本命令介绍
    9、文件操作和关机命令
    10、权限管理
    11、权限管理及软件管理

    二、Hadoop篇
    12、大数据的发展和时代背景
    13、Hadoop集群的特点和优势
    14、Hadoop及其组件介绍
    15、HDFS框架实现原理
    16、YARN和MapReduce原理和介绍
    17、Hadoop平台搭建准备(1)
    18、Hadoop平台搭建准备(2)
    19、使用VMware设置还原点和实现数据的迁移
    20、Hadoop的CDH版本的介绍
    21、Hadoop运行参数配置
    22、Hadoop集群参数配置
    23、HDFS集群的启动和测试
    24、YARN的启动测试和完成经典官方案例wordcount
    25、MapReduce工作原理
    26、日志聚合服务配置和测试

    三、SCala篇
    27、Scala介绍和环境的配置
    28、开发环境和插件的安装介绍
    29、_IDEA项目编辑器中创建Scala项目
    30、第一句helloworld并且和Java的对比
    31、Scala中变量和基本语法
    32、Scala中数组的介绍
    33、List和Map的介绍
    34、Scala中的函数书写规范
    35、高阶函数
    36、Scala中的匹配模式
    37、隐式函数、隐式类和隐式对象
    38、隐式值等的介绍
    39、使用Scala完成Hadoop经典案例词频统计

    四、Spark篇
    40、Spark介绍
    41、Spark核心概念和环境配置介绍
    42、集群中Scala的环境配置
    43、Spark配置及启动
    44、使用Spark完成wordcount案例
    45、maven的介绍和配置
    46、idea配置maven和导入maven工程
    47、编写Spark模板文件和作用
    48、Spark实现wordcount功能
    49、Sparksession介绍
    50、数据准备及项目需求分析
    51、使用Spark完成淘宝用户数据分析项目
    52、Spark的standalone模式的配置和测试运行以及和本地模式的区别对比