分布式文件存储系统GFS的基础知识

GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。

1.GFS的主要架构GFS架构比较简单,一个GFS集群一般由一个mas     te   r、多个chunkserver和多个clients组成。在GFS中,所有文件被切分成若干个chunk,每个chunk拥有唯一不变的标识(在chunk创建时,由master负责分配),所有chunk都实际存储在chunkserver的磁盘上。为了容灾,每个chunk都会被复制到多个chunkserve

2.GFS的功能模块

 分布式文件存储系统GFS的基础知识_设计制作_电源/新能源

GFSclient客户端:为应用提供A     PI   ,与POSIXAPI类似。同时缓存从GFSmaster读取的元数据chunk信息;GFSmaster元数据服务器:管理所有文件系统的元数据,包括命令空间(目录层级)、访问控制信息、文件到chunk的映射关系,chunk的位置等。同时master还管理系统范围内的各种活动,包括chunk创建、复制、数据迁移、垃圾回收等;GFSchunksever存储节点:用于所有chunk的存储。一个文件被分割为多个大小固定的chunk(默认64M),每个chunk有全局唯一的chunkID。

3.GFS的写入流程

Client向master询问要修改的chunk在哪个chunkserver上,以及该chunk其他副本的位置信息。

Master将Primary、secondary的相关信息返回给client。

Client将数据推送给primary和secondary;。

当所有副本都确认收到数据后,client发送写请求给primary,primary各不同client的操作分配序号,保证操作顺序执行。

Primary把写请求发送到secondary,secondary按照primary分配的序号顺序执行所有操作

当Secondary执行完后回复primary执行结果。

Primary回复client执行结果。

 分布式文件存储系统GFS的基础知识_设计制作_电源/新能源

由上述可见,GFS在进行写数据时,有如下特点:

GFS在数据读写时,数据流与控制流是分开的,并通过租约机制,在跨多个副本的数据写入中,保障顺序一致性;

Master将chunk租约发放给其中一个副本,这个副本称为主副本,由主副本确定chunk的写入顺序,此副本则遵守这个顺序,这样就保障了全局顺序一致性

Master返回客户端主副本和次副本的位置信息,客户端缓存这些信息以备将来使用,只有当主副本所在chunkserver不可用或返回租约过期了,客户端才需要再次联系Master;

GFS采用链式推送,以最大化利用每个机器的网络带宽,避免网络瓶颈和高延迟连接,最小化推送延迟;

GFS使用TCP流式传输数据,以最小化延迟。

4.GFS特点适合大文件场景的应用,特别是针对GB级别的大文件,适用于数据访问延时不敏感的搜索类业务中心化架构,只有1个master处于ac     ti   ve状态缓存和预取,通过在client端缓存元数据,尽量减少与master的交互,通过文件的预读取来提升并发性能高可靠性,master需要持久化的数据会通过操作日志与checkpoint的方式存放多份,故障后master会自动切换重启。

84
165
0
95

相关资讯

  1. 1、《传奇的诞生》要饱含热泪去爱,要自强不息去拼4941
  2. 2、杨小艺遭同门PK惨败90后怪咖止步花儿舞台3810
  3. 3、《101次求婚》4350万破情人节爱情片票房纪录2062
  4. 4、《十二谭》娜扎造型绝美,可惜这部剧却不被看好764
  5. 5、好莱坞动作大片《摩天营救》单日破亿女性观众反馈看完想嫁3056
  6. 6、佟丽娅又把睡裤当短裤穿!可这次却意外嫩出新高度,网友:美炸了1589
  7. 7、《活佛济公3》连续夺冠济公渴望度假来减压1578
  8. 8、王瑞为《梦想职达》撰文:人是万物的尺度5005
  9. 9、29岁自缢身亡,死后401天,作品获金马最佳,网友说了两个字3201
  10. 10、“因一个演员被毁”的4部电视剧,你若一部未看过,那就太幸运了3272
全部评论(0)
我也有话说
0
收藏
点赞
顶部