课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

讲师介绍

  • 赵强老师,清华大学软件工程专业毕业。京东大学大数据学院院长,Oracle(中国)高级技术顾问。精通大数据、Oracle数据库、NoSQL数据库,以及中间件技术

  • 课程详情

    大数据平台中的主要组件,如下:

    HDFS(Hadoop分布式文件系统)
    源自于Google的GFS论文,发表于2003年10月,HDFS是GFS的山寨版。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。是Hadoop体系中数据存储管理的基础,用于存储海量的数据,解决大数据的存储问题。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

    Mapreduce(分布式计算框架)
    源自于Google发表的MapReduce论文,发表于2004年12月,Hadoop中实现的MapReduce计算模型是Google的克隆版。MapReduce是一种计算模型,用以进行大数据量的计算,分为Map和Reduce的两个阶段。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果,即<key value>的形式。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果,最终的结果也是<key value>的形式。

    Yarn(资源管理框架)
    YARN (另一种资源协调者,Yet Another Resource Negotiator)是一种新的 Hadoop 资源管理器,可为上层应用提供统一的资源管理和调度,它是一个通用资源管理系统,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
    YARN的基本思想是主要方法是创建一个全局的资源管理器和若干个针对应用程序的应用程序管理器,将JobTracker的两个主要功能(资源管理和作业调度/监控)分离。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。
    该框架是hadoop2.x以后对hadoop1.x之前JobTracker和TaskTracker模型的优化,将JobTracker的资源分配和作业调度及监督分开。该框架主要有资源管理器,应用程序管理器,节点管理器。

    Sqoop和Flume
    Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之间传输数据。数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。
    Flume(日志收集工具),Cloudera开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点。

    Hbase(分布式列存数据库)
    源自Google的Bigtable论文,发表于2006年11月,传统的关系型数据库是对面向行的数据库。HBase是Google Bigtable克隆版,HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

    Zookeeper(分布式协作服务)
    源自Google的Chubby论文,发表于2006年11月,Zookeeper是Chubby克隆版,主要解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。

    数据仓库Hive
    Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,是建立在Hadoop上的数据仓库基础构架。作为Hadoop的一个数据仓库工具,Hive可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。

    大数据处理引擎Spark
    Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。