分布式文件存储系统GFS的基础知识

GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。

1.GFS的主要架构GFS架构比较简单,一个GFS集群一般由一个mas     te   r、多个chunkserver和多个clients组成。在GFS中,所有文件被切分成若干个chunk,每个chunk拥有唯一不变的标识(在chunk创建时,由master负责分配),所有chunk都实际存储在chunkserver的磁盘上。为了容灾,每个chunk都会被复制到多个chunkserve

2.GFS的功能模块

 分布式文件存储系统GFS的基础知识_设计制作_电源/新能源

GFSclient客户端:为应用提供A     PI   ,与POSIXAPI类似。同时缓存从GFSmaster读取的元数据chunk信息;GFSmaster元数据服务器:管理所有文件系统的元数据,包括命令空间(目录层级)、访问控制信息、文件到chunk的映射关系,chunk的位置等。同时master还管理系统范围内的各种活动,包括chunk创建、复制、数据迁移、垃圾回收等;GFSchunksever存储节点:用于所有chunk的存储。一个文件被分割为多个大小固定的chunk(默认64M),每个chunk有全局唯一的chunkID。

3.GFS的写入流程

Client向master询问要修改的chunk在哪个chunkserver上,以及该chunk其他副本的位置信息。

Master将Primary、secondary的相关信息返回给client。

Client将数据推送给primary和secondary;。

当所有副本都确认收到数据后,client发送写请求给primary,primary各不同client的操作分配序号,保证操作顺序执行。

Primary把写请求发送到secondary,secondary按照primary分配的序号顺序执行所有操作

当Secondary执行完后回复primary执行结果。

Primary回复client执行结果。

 分布式文件存储系统GFS的基础知识_设计制作_电源/新能源

由上述可见,GFS在进行写数据时,有如下特点:

GFS在数据读写时,数据流与控制流是分开的,并通过租约机制,在跨多个副本的数据写入中,保障顺序一致性;

Master将chunk租约发放给其中一个副本,这个副本称为主副本,由主副本确定chunk的写入顺序,此副本则遵守这个顺序,这样就保障了全局顺序一致性

Master返回客户端主副本和次副本的位置信息,客户端缓存这些信息以备将来使用,只有当主副本所在chunkserver不可用或返回租约过期了,客户端才需要再次联系Master;

GFS采用链式推送,以最大化利用每个机器的网络带宽,避免网络瓶颈和高延迟连接,最小化推送延迟;

GFS使用TCP流式传输数据,以最小化延迟。

4.GFS特点适合大文件场景的应用,特别是针对GB级别的大文件,适用于数据访问延时不敏感的搜索类业务中心化架构,只有1个master处于ac     ti   ve状态缓存和预取,通过在client端缓存元数据,尽量减少与master的交互,通过文件的预读取来提升并发性能高可靠性,master需要持久化的数据会通过操作日志与checkpoint的方式存放多份,故障后master会自动切换重启。

84
165
0
95

相关资讯

  1. 1、芒果TV推出牛奶盒子及牛奶OS系列产品,布局智能家居新生态584
  2. 2、工业现代化电力系统走向数字化物联网技术安全成关键4519
  3. 3、KakaoTalk将推出加密货币功能,Klaytn预计在6月正式启动2504
  4. 4、开售七分钟,每一分钟一个亿销售额,华为5G版“滚筒洗衣机”火了!4308
  5. 5、中芯国际天津厂扩产项目首台设备搬入,产能将达到15万片/月2101
  6. 6、我国网络安全产业五大增长点凸显,市场规模达到495.2亿元4315
  7. 7、东京奥运8K转播带动背光LED出货量将大增680
  8. 8、联想发布ThinkPadX1和YogaANC耳机,都支持蓝牙5.0连接1605
  9. 9、浪潮发布业内首款面向企业能力的数字化中台iGIX,打造产业互联新高度1803
  10. 10、AI、大数据、预测分析和机器人学习领域的主要数据统计分析1700
全部评论(0)
我也有话说
0
收藏
点赞
顶部