分布式存储系统是大数据技术学习过程中会经常接触到的一个工具,而今天我们就一起来了解一下,常见的一些分布式存储系统都有哪些类型。
1、HadoopHDFS( 大数据 分布式文件系统)
Hadoop分布式文件系统(HDFS)是一个分布式文件系统,适用于商用硬件上高数据吞吐量对大数据集的访问的需求。
该系统仿效了谷歌文件系统(GFS),数据在相同节点上以复制的方式进行存储以实现将数据合并计算的目的。
该系统的主要设计目标包括:容错,可扩展性,高效性和可靠性。
2、OpenStack的对象存储Swift
OpenStackSwift提供一个类似AmazonS3的对象存储。其主要特点为:
所有的存储对象都有自身的元数据和一个URL,这些对象在尽可能的区域复制3次,而这些区域可被定义为一组驱动器,一个节点,一个机架等。
开发者通过一个RESTfulHTTPA PI 与对象存储系统相互作用。
对象数据可以放置在集群的任何地方。
在不影响性能的情况下,集群通过增加外部节点进行扩展。这是相对全面升级,性价比更高的近线存储扩展。
数据无需迁移到一个全新的存储系统。
集群可无宕机增加新的节点。
故障节点和磁盘可无宕机调换。
3、Lustre
Lustre是一个并行分布式文件系统,通常用于大规模集群计算。??它的名字取自 Linux 和clus te r(集群)的组合词。Lustre文件系统软件遵循GPL2认证协议并为(各类规模) 计算机 集群提供高性能文件系统。
因为Lustre文件系统拥有高性能的能力和开放式认证,所以经常应用于超级计算机。
Lustre文件系统具有可扩展性,可支持在数百台服务器上配置数万客户端节点,PB级容量的多个计算机集群,并超出TB级聚合I/O吞吐量。
这让Lustre文件系统受到拥有大型数据中心企业的青睐,其中也包括例如气象,虚拟,石油天然气,生命科学,多功能媒体和金融行业。Lustre曾辗转过几家企业,近的三个所有者(时间先后排序)依次为甲骨文,Whamcloud和 英特尔 。
4、IBMGeneralParallelFileSystem(GPFS通用并行文件系统)
这个专有GPFS是一个由IBM开发的高性能集群文件系统。它可以在共享磁盘或非共享分布式并行模式中进行部署。
GPFS-SNC,其中SNC代表SharedNothingCluster(非共享集群),它是2012年12月正式发布的GPFS3.5版本,如今被称为GPFS-FPO(文件配置优化)。这让GPFS可以在一个联网服务器的集群上采用本地连接磁盘,而不需要配置共享磁盘的专用服务器(例如使用SAN),GPFS-FPO可充当HDFS兼容的文件系统。
GPFS时常通过调用计算集群上的MPI-IO(MessagePassingInterface)进行访问。功能包括:
分布式元数据处理。包括目录树。没有单独的“目录控制器”或“索引服务器”管理文件系统。
对非常大的目录进行高效索引目录项。很多文件系统被限制在单一目录(通常,65536或类似的小二进制数)中的少数文件内,而GPFS并没有这样的限制。
分布式锁定。该功能考虑了完整的Posix文件系统语义,包括锁定文件进行独占访问。
责任编辑人:CC