课程分类

课程介绍
课程目录
用户评论
课程介绍
课程目录
用户评论

你将获得

  • 掌握某些知识点
  • 学会某些技巧(或思路)

教学服务

  • icon

    1v1专属答疑服务

  • icon

    BAT专家面试辅导

课程详情

大数据技术相关-hdfs介绍
p分布式文件系统简介
Ø分布式文件系统(Distributed File System,DFS)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统,一般采用C/S模式。
ØHDFS(Hadoop Distributed File System,Hadoop分布式文件系统)提供了在廉价服务器集群中进行大规模分布式文件存储能力。
p分布式文件系统的结构
Ø块:默认的一个块大小是64MB。在HDFS中文件会被拆分成多个块,每个块作为独立的单元进行存储。
•采用抽象的块概念可以带来的好处:
①简化系统设计:容易计算一个节点可以存储多少文件块;元数据不需要和文件块一起存储,方便了元数据的管理。
②支持大规模文件存储:一个大规模文件可以被分拆成若干个文件块,不同的文件块可以被分发到不同的节点上,即一个文件的大小不受单个节点存储容量的限制。
③适合数据备份:每个文件块都可以冗余存储到多个节点上,因而大大提高系统的容错性和可用性。
pHDFS简介
ØHDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点和若干个数据节点。名称节点作为中心服务器,每个数据节点周期性地向名称节点发送“心跳”信息,报告自己的状态,没有按时发送心跳信息的数据节点会被标记为“宕机”,不会再给它分配任何I/O请求。
pHDFS的存储原理
pHDFS的数据读写过程
pHDFS应用实践
ØHDFS命名空间管理:命名空间包含目录、文件和块。命名空间管理是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除等基本操作。在当前的HDFS体系结构中,在整个HDFS集群中只有一个命名空间,并且只有唯一一个名称节点,该节点负责对这个命名空间进行管理。 HDFS使用的是传统的分级文件体系,但是,HDFS还没有实现磁盘配额和文件访问权限等功能,也不支持文件的硬连接和软连接(快捷方式)
Ø通信协议:所有的HDFS通信协议都是构建在TCP/IP协议基础之上的;客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互;名称节点和数据节点之间则使用数据节点协议进行交互;客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的。
Ø客户端:支持打开、读取、写入等操作,提供类似Shell的命令行方式/Java API编程方式。严格来说,客户端并不算是HDFS的一部分。