设为首页收藏本站

LinuxTone | 运维专家网论坛 - 最棒的Linux运维与开源架构技术交流社区!

 找回密码
 注册

QQ登录

只需一步,快速开始

#公告#抱歉,网站将关闭,不再开放。由于PC时代已远逝 。在这个后移动互联网时代,我们继续携手前行,保持对技术的热情。共同构建linuxtone知识星球欢迎加入,一起讨论技术、招聘人才、分享资源。请新老linuxtone人 扫码移步到 知识星球:linuxtone

学习是一种信仰!分享是一种快乐!能力= 心态 * 沟通 * 知识 (你的每一天需要正能量!)

 网站的发展需要你贡献一份力量!希望你能每天坚持看贴1小时,并回答网友的问题!祝你在浏览论坛的过程中取得进步!谢谢!linuxtone加油!大家加油! 友情提示: 你今天学习了吗?你今天进步了吗?少一点抱怨!多一点进步!Life is short ! Why not linuxtone ?  

网站的发展、感谢每位坛友的努力!

查看: 8364|回复: 1

关于MFS vs hdfs 与其它集群云文件系统 [复制链接]

Rank: 8Rank: 8

签到
372
注册时间
2011-3-10
最后登录
2019-7-22
在线时间
133 小时
阅读权限
90
积分
36439
帖子
65
主题
22
精华
0
UID
12322
发表于 2011-10-6 02:57:17 |显示全部楼层

昨天在台湾的坛子上,问了关于MFS vs hdfs 在海量存储应用方面的性能的测试。
Jazz老大的回答,有一定的参考价值:
==========
先前看過一個簡單的比較,說 MogileFS 比較合適小檔案,
HDFS 則強調大檔案(64MB 當一個 Block)。

某種程度上,影音比較合適用 HDFS。
只是 HDFS 的優點是 Thoughput 高,但 Latency 較差。
若沒有要作 MapReduce 運算,個人還是比較推薦 GPFS 或 Lustre。
不考慮效能就用 HDFS + FUSE 吧~
======

随即网络科普学习一下,相关技术,具体的细节,还有待进一步进行测试研究。
梦翔儿:GPFS:看起来用在IBM的Unix下,需要额外的存储平台,不一定适合我们。。
=============
GPFS 是 IBM 公司第一个共享文件系统,起源于 IBM SP 系统上使用的虚拟共享磁盘技术( VSD )。作为这项技术的核心, GPFS 是一个并行的磁盘文件系统,它保证在资源组内的 所有节点可以并行访问整个文件系统;而且针对此文件系统的服务操作,可以同时安全地在 使用此文件系统的多个节点上实现。 GPFS 允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上;它提供了许多标准的 UNIX 文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。 GPFS 也支持 UNIX 文件系统的工具,即:用户可以像使用普通文件系统一样使用基于 GPFS 的文件系统, 唯一不同的在于管理 GPFS 文件系统的命令。 GPFS 提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(这些节点 属于同一个节点组)上的并行应用同时访问同一个文件或者不同的文件。

GPFS的特性  GPFS通过高性能的,共享磁盘的文件系统提供对于IBM UNIX服务器群集中的快速的数据访问。平行的和串行的应用程序能够容易地使用标准的UNIX文件系统接口,如open(), close()等存取文件。

  GPFS通过将I/O分布在多个硬盘提高性能,通过日志和复制的方式提高数据的可靠性,通过增加节点和在节点之间由SP Switch互联提高系统的可扩展性.

  大多数UNIX下的文件系统被设计来应用于单一服务器的典型环境。增加新的文件服务器并不能提高文件存取性能。GPFS 遵从UNIX的文件标准,其设计目标是通过多节点的文件系统提供可扩展的性能和系统失效恢复的能力。

  除了已有的AIX管理文件系统的命令, GPFS还提供 简化多节点管理的功能。一个GPFS多节点命令能作用于集群中所有的节点,并且可以从群集中的任何节点上操作。这些命令以现有的AIX文件系统命令为基础, 并进行了扩充。

  GPFS支持X/Open 4.0的文件系统标准,大多数的AIX和 UNIX操作系统的应用程序不需要修改,就可以访问GPFS文件系统上的数据。这些特性使得GPFS文件系统可以替代其他的UNIX文件系统。

GPFS的高性能和可扩展性  通过将文件分布在多个节点和磁盘上,GPFS可以超越单一节点和单一文件系统的性能极限。文件系统能够跨越多个节点和多组磁盘,这些磁盘可以是使用 SSA 技术在HACMP群集里面直接地连接到每个节点上进行物理共享。也可以是由IBM的VSD(Virtual Shared Disk)和SP Switch技术使经过软件进行共享。



扩展阅读:
http://baike.baidu.com/view/1301755.htm
=======
本文通过一个实际的生产系统案例 , 主要介绍了搭建高可用并行文件系统集群(GPFS)的设计思路和设计过程中的问题解决。本文也通过案例介绍了GPFS并行文件系统的一些基本框架和原理 ,GPFS系统的可靠性分析方法,以及如何最大可能的提高GPFS系统的性能与可靠性。
  GPFS并行文件系统介绍
  GPFS(General Parallel File System) 是 IBM 公司第一个共享文件系统,起源于 IBM SP 系统上使用的虚拟共享磁盘技术 ( VSD )。作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统。而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。
  GPFS允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上。提供了许多标准的 UNIX 文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。GPFS也支持 UNIX 文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS的文件系统,唯一不同的在于管理GPFS文件系统的命令。GPFS提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(这些节点属于同一个节点组)上的并行应用同时访问同一个文件或者不同的文件。
  GPFS文件系统基本上由三层架构组成:磁盘,网络共享磁盘(NSD),GPFS文件设备,如下图所示。


图 1GPFS基本结构

  磁盘
  GPFS文件系统最底层的是物理磁盘设备。原则上可以采用系统上任何块设备,包括磁盘,磁盘分区,逻辑卷。从物理连接上来看,GPFS支持使用所有方式连接的磁盘。包括本地 IDE 磁盘,本地 SCSI 磁盘,光纤 SAN 磁盘,iSCSI 磁盘,等等。
  网络共享磁盘(NSD)
  NSD 是由磁盘映射出来的虚拟设备,NSD 与磁盘是一一对应的关系。NSD 被标记了不同属性来区分其用途,我们可以将磁盘标记为 4 种用途:
  Desc Only:只存储GPFS文件系统描述信息的磁盘。
  Data Only:只存储文件系统中的数据信息。
  Meta data only: 只存储文件系统中的目录结构 inode 信息。
  Meta and data: 存储所有信息(默认)。
  GPFS文件设备
  GPFS设备是一个可被系统挂载的文件设备,由 NSD 创建而成,可以并行的同时挂载在多个节点上。
GPFS可靠性分析和设计思路
  GPFS的数据完整性一方面是由以上提到的数据安全机制来保证,另外也通过一套可用性判断机制来完全保证数据完整性与系统安全。GPFS提供三套不同的 quorum 机制来判断系统当前的状态,其中 File Descriptor Quorum 是系统内置的,不能做配置,另外两种 node quorum 和 tiebreaker quorum 方式只能二者选其一,使用那种方式要基于我们的系统环境与可靠性分析。
  File system Descriptor Quorum:File system Descriptor 顾名思义即描述文件系统信息的数据。我们在几个不同的 failure-group 的磁盘上创建GPFS文件系统时,会把文件系统的配置信息(简写为 FD)的拷贝写到多个磁盘上,以实现冗余备份。FD quorum 的机制即通过判断含有 FD 磁盘的在线情况来判断当前系统是否正常,当超过半数的含有 FD 的磁盘掉线时,就判断为系统故障,将会自动关闭文件系统。
  Node Quorum:是通过主机状态的来判断系统可用性的机制。GPFS文件系统集群中,可以设置多个主机节点为 Quorum node。Node Quorum 的机制是通过判断 Quorum node 的状态来判断系统是否正常,当超过半数的 Quorum node 在线时,判断系统为正常,反之,将关闭文件系统。
  Tiebreaker quorum:是通过磁盘的状态来判断系统的可用性。我们可以设置系统通过监视指定的一些磁盘作为 Tiebreaker Disk。当超过半数的 Tiebreaker Disk 掉线时,则判断系统故障,将自动关闭文件系统。Tiebreaker 最多只能配置两个用来监控磁盘状态的 quorum 主机,当 2 台 quorum 主机都宕机的话,GPFS系统也将会关闭。其优势在于节点数较少时可用性较高,但节点数较多的情况建议采用 Node quorum 模式。
  根据以上三种判断机制,GPFS自动判断系统的状态,当异常发生时自动关闭系统以保护系统和数据的完整性。
  基于上面阐述的GPFS可用性机制,我们可以看出GPFS是通过上述的三种 quorum 机制来检查资源是否超过半数状态正常来判断系统状态好坏。我们在设计GPFS文件系统集群的时候需要注意最好保证各种资源数都为 2N+1 个(N 是指数量),也即数量为奇数,来获得系统最大的可用性。
  ? Filesystem Descriptor (FD)Quorum 的设计。我们在一般的生产系统中都会使用两组不同的 failure group 的磁盘来创建一个文件系统,以实现数据的冗余保护,但是丢失一个 failure group 的磁盘实际不影响数据的完整性,但是由于 FD quorum 2N+1 的机制,文件系统仍将会关闭,所以我们在创建一个GPFS文件系统时,可以通过增加一个很小的本地的磁盘作为第三个 failure group。以实现 2N+1 的冗余设计。本地的磁盘可以设置为只保存GPFS文件系统信息(FD),实际不参与数据读写。(同一个 failure group 的磁盘是指有可能同时坏掉的磁盘,比如来自同一个存储的磁盘或连在同一个适配器上的磁盘)
  ? Node Quorum 如果采用了 2N+1 个 Quorum Node,那么这个系统就能容忍 N 个主机节点的离线,所以如果主机节点小于 5 个采用此种方法都不是很经济,此时建议采用 Tiebreaker quorum 机制。
  ? Tiebreaker quorum 只能配置两个 quorum 主机,但是只要 tiebreaker 磁盘在线,只有一个 quorum 主机状态正常,系统也能正常工作,同时也意味着必须有一台 quorum 主机在线。如果是主机节点数较多的情况,采用此种机制其可靠性不如 Node quorum。
测试系统需求和环境
  测试系统需要构建一个高性能且高可靠的文件系统平台。其基本要求如下:
  1. 文件系统读写带宽至少达到 720MByte/s。
  2. 工作负荷每天超过 16 小时或两个轮班。
  3. 由 4 台主服务器和 2 台存储提供服务。
  4. 至少 2TB 的空间 , 存放的文件大小一般在 600MB 左右,文件传输 80% 采用 samba 或 NFS,20% 采用 TFTP。
  实际需求分析:
  ? 性能考虑:系统读写带宽要达到 720MByte/s,均分到 4 台服务器就是 180MByte/s。如此高的带宽采用普通的服务器内置磁盘无法满足要求。所以我们在磁盘存储这一层采用了 DS4700 存储的解决方案。
  考虑到该应用对磁盘空间的需求很大,如果 4 台服务器分配独立的磁盘空间,则需要目前 4 倍的磁盘空间,并且大大增加后期的维护工作与费用。为了节省存储的成本,我们决定采用GPFS并行文件系统的方案,共享磁盘空间。同时GPFS其优异的“并行”的特点,又保证性能能够满足要求。
  ? 可靠性考虑:此系统为生产系统,而且负荷较大,对可靠性有非常高的要求。所以本方案中所有的组件都将采用双机冗余或多节点冗余,以保证无单点故障。
  ? Quorum 机制的选择:本方案预算只有 4 台主服务器,如果采用 Node quorum 的方式,整个系统可用性只能支持一台主机离线,可用性非常差。如果采用 Break Tie Disk 的方式,整个系统可用性支持被指定为 quorum 的两台主机,任意一台离线,以及其他 2 台主机的任意离线。我们可以看到采用 Break Tie Disk 的方式有较高的可用性。但是由于采用 Break Tie Disk 模式对两台设置为 quorum 的主机可用性要求较高,而且灵活性较差。
  从 FD quorum 的角度来看,我们只有 2 个存储,也即 2 个 Failure Group。任意一个存储的宕机也将会导致文件系统的关闭。我们必须增加第三个 Failure Group 的磁盘来提高可用性。我们考虑从某一台服务器本地拿出一个磁盘作为第三个 Failure Group 的磁盘。
  最后采用的方案是 , 增加一台配置较低,但可用性较高的服务器,并使用这第五台服务器上的一个 Raid 1 磁盘作为第三个 Failure Group 磁盘。总共 5 个节点采用 Node Quorum 方式。可以支持任意两台的服务器同时离线,任意一台存储的离线。
解决方案介绍
  通过以上的原理与可靠性分析,最终设计方案如下。
  硬件结构
  硬件结构分三层,如下图(图 2)所示。
  ? 存储层:采用2台DS4700 存储,保证数据的完全的冗余备份。每台DS4700 有两个控制器,保证了控制器的冗余以及链路的冗余。
  ? SAN 存储网络层:两台 SAN 交换机,保证 SAN 存储链路设备的完全冗余。
  ? 服务器层:增加一台配置较低的服务器 , 对性能没有要求 , 但需要是可靠性较高的配置,一共5台服务器以实现2N+1 的冗余。从新增加的服务器中划分出一个磁盘 ( 比如lv),设置为Desc Only 的磁盘,以实现磁盘组的 2N+1 的冗余。每台服务器都有 2 个 HBA 卡,以及多个网卡,以保证链路冗余。


图 2 硬件框架图

  该GPFS的逻辑结构如下图(图 3 )所示。也基本分为三层。
  ? GPFS逻辑磁盘设备:由物理磁盘创建而成,按保存数据类型分为,meta-data,data,meta-data and data,Desc only 4 种。两个存储节点分别是 Failure Goup1 和 Failure Group2。用来存放数据文件。而 Disk5 只用来保存GPFS文件系统描述信息。
  ? GPFS文件系统设备:通过组合逻辑磁盘设备创建GPFS文件系统设备。此设备在 Linux 操作系统中相当于一个格式化好的硬盘分区,可以将其挂载到文件系统中。
  ? 服务器端的文件系统:GPFS的文件系统设备在所有集群的系统内都是可以看到的,用户可以按需GPFS文件系统挂载到各主机节点上。


图 3GPFS逻辑结构

附:GPFS系统优势
  ? 高性能
  GPFS允许在同一节点内的多进程或者应用使用标准文件系统调用,同时访问(并发,读写)同一个文件。通过将节点内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写。
  ? 跨平台设计
  GPFS支持在一个集群内加入异构的平台。
  支持异构的硬件环境:System p, System x。
  支持异构的操作系统:AIX, Linux。
  ? 数据一致性
  GPFS通过一套复杂的信令管理机制提供数据一致性。通过这套机制允许任意节点通过各自独立的路径到达同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径。
  ? 数据安全性
  GPFS是一种日志文件系统,为不同节点建立各自独立的日志。日志中记录 metadata 的分布,一旦节点发生故障后,可以保证快速恢复数据。
  GPFS的 fail-over 功能通过规划,将数据分布到不同 failure group 内达到高可用性,减少单点故障的影响。为了保证数据可用性,GPFS在多个 failure group 内为每个数据实例做备份,即使创建文件系统时没有要求复制,GPFS也会自动在不同的 failure group 内复制恢复日志。
  ? 系统可扩展性
  通过GPFS,系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。系统处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。可以在不重新启动GPFS服务情况下添加新节点。
  ? 管理简单
  GPFS自动在各个节点间同步配置文件和文件系统信息,而且在同一个节点内,对GPFS的管理可以在任一个节点上进行。
http://storage.it168.com/a2010/0527/938/000000938750.shtml
=======

梦翔儿:Lustre 文件系统,看起来是HP的,因为不支持元数据管理,所以高可扩展性研究还是有些担忧,在高性能计算机上用的比较多,现在Oracle在作支持。  
Lustre是HP, Intel,Cluster File System公司联合美国能源部开发的Linux集群并行文件系统。该系统目前推出 1.0 的发布版本,是第一个基于对象存储设备的,开源的并行文件系统。其结构如图所示,它由客户端,两个MDS,OSD 设备池通过高速的以太网或 QWS Net 所构成。目前可以支持1000 个客户端节点的 I/O 请求,两个 MDS 采用共享存储设备的 Active-Standby方式的容错机制,存储设备跟普通的,基于块的 IDE 存储设备不同,是基于对象的智能存储设备。Lustre 采用分布式的锁管理机制来实现并发控制,元数据和文件数据的通讯链路分开管理。与 PVFS 相比,Lustre 虽然在性能,可用行和扩展性上略胜一踌,但它需要特殊设备的支持,而且分布式的元数据服务器管理还没有实现。
Lustre 优缺点  Lustre 采用分布式的锁管理机制来实现并发控制,元数据和文件数据的通讯链路分开管理。与 PVFS 相比,Lustre 虽然在性能,可用行和扩展性上略胜一踌,但它需要特殊设备的支持,而且分布式的元数据服务器管理还没有实现。

  注:PVFS: Clemson 大学的并行虚拟文件系统 (PVFS) 项目用来为运行 Linux 操作系统的 PC 群集创建一个开放源码的并行文件系统。PVFS 已被广泛地用作临时存储的高性能的大型文件系统和并行 I/O研究的基础架构。 作为一个并行文件系统,PVFS 将数据存储到多个群集节点的已有的文件系统中,多个客户端可以同时访问这些数据。
http://baike.baidu.com/view/3987334.htm
Lustre是开放源代码的集群文件系统, 采取 GPL 许可协议集群计算机里,计算机与磁盘间数据交换速度的提升无法跟上微处理器和内存增长的速度,从而也拖累了应用程序的性能。
一种新兴的集群文件系统软件提高了I/O速度,可能降低企业购买存储设备的成本并改变企业购买存储的方式。
集群文件系统已经在大学、实验室和超级计算研究中心里使用,而且即将进入通用商业计算市场。
集群文件系统所拥有的快速I/O速度,可能将会改变企业处理存储的方式。
新的集群文件系统采用了开源的Lustre技术,由美国能源部(Department Of Energy)开发,惠普公司(HP)提供商业支持。它显著提高了输入输出(I/O)速度,目前已经在高校、国家实验室和超级计算研究中心产生了一定的影 响,未来几年中,它还有可能进入普通商业计算领域。
惠普公司发布了可扩展文件系统(Scalable File Share)的第2版,这个产品是去年年底推出的,包含一台服务器和一个软件包,使用Lustre技术来分布集群内的存储服务,这种做法与过去几年一些 IT厂商为提高服务器性能所采取的分布式计算方式非常相似。SFS系统允许集群里的Linux节点能以高达每秒35GB的速度读取数据,而且允许高达 512TB的总存储容量,这是以前旧有系统容量的两倍。
Sun称Lustre是“目前全球具有最佳可扩展性的并行文件系统”,现在全球十大超级计算机中的六个以及40%的TOP100超级计算机都采用了这个系统。
Sun Lustre部门总监Peter Bojanic表示:“Lustre文件系统能扩展至在一个命名空间内支持PB级的数据量,为超过25000名用户提供超过100GB/s的累积性能,用户中包括劳伦斯利弗莫尔国家实验室、橡树岭国家实验室以及圣地亚国家实验室的高性能应用,这些用户对大型文件I/O和持续高带宽有很高的要求。”
另外这款系统在石油和天然气、富媒体以及内容分布网络等领域的应用也在不断扩大,这些领域都要求有针对大型或者小型文件的混合型工作负载。Lustre与其他系统的一个不同之处就是,它可以被作为一款基于Linux的开源软件。这就是为什么你会发现,它能够与来自其他高性能计算厂商的产品进行集成,例如SGI、戴尔、惠普、Cray以及Terascala。
Lustre是一款基于目标的集群文件系统,但是它并不支持T10 OSD,而且底层存储分配管理也是基于块的。它的配置包括Lustre MetaData Server和Lustre Object Storage Servers。文件操作绕过MetaData Server,利用集群中的并行数据路径访问Object Server。服务器是以备援目的而配合成对的。Lustre可以在不同类型的网络下运行,其中包括IP网络和InfiniBand网络。
http://wiki.huihoo.com/wiki/Lustre

---------------------
存储小百科:如何选择集群文件系统  建立集群和使用率高的数据存储解决方案有很多选择,但是要想弄清每种选择的优劣则要花点时间进行研究。存储架构和文件系统的选择至关重要,因为大部分的存储解决方案都有严格的限制条件,需要仔细设计工作环境。

  我们将在本文中介绍一些常用的物理存储架构以及群集和分布式文件系统。希望这能让你们对这类技术有一个初步的认识,以便更好地满足高使用率存储的需求。

  基础架构

  有些读者也许希望装配一组可以并行访问同一个文件系统的服务器,而另一些读者可能想复制存储器并提供并行访问和冗余。有两种方法可以实现多服务器访问同一个磁盘,一种方法是让那些服务器都可以看到那个磁盘,另一种方法则是通过复制。

  共享磁盘结构在光纤通道SAN和iSCSI领域是最常见的结构。配置存储系统相当简单,这样多个服务器就可以看到同一个逻辑块设备或LUN,但是如果没有群集文件系统,那么当多个服务器同时想使用那个逻辑块设备时就会出现混乱。 这个问题与使用群集文件系统有关,我们将在下文中详细介绍。

  一般而言,共享磁盘系统有个弱点,那就是存储系统。但是情况也并非总是如此,因为利用现在的技术是很难理解共享盘的概念的。 SAN、NAS设备和基于Linux系统的商品硬件可以将所有的基础磁盘实时复制到另一个存储节点,从而提供一个模拟共享盘环境。基础模块设备被复制之后,那些节点就可以访问相同的数据,也可以运行同一个群集文件系统了,但是这种复制超出了传统共享盘的定义。

  相反,不共享才是共享盘的问题所在。连接着不同存储设备的节点会在每个模块被写入数据时将变化通知给主服务器。 现在,不共享架构仍存在于Hadoop那样的文件系统之中,那些文件系统可以在许多节点故意建立多个数据副本,从而提高性能和冗余。而且,在不同存储设备或节点之间利用自己的存储设备进行复制的群集也可以做到不共享。

  设计选择

  正如我们所说的,你不能通过多个服务器访问同一个模块设备。你听说过文件系统锁定,因此普通的文件系统并不能实现这一点就有些奇怪了。

  在文件系统级别上,文件系统本身会将文件锁定以保证数据不会出错。但是在操作系统级别上,文件系统启动程序完全可以访问基础模块设备,它们可以在基层模块设备之间自由的漫游。大部分文件系统都会认为它们被分配了一个模块设备,而且那个模块设备也只是它们自己所有。

  为了解决这个问题,集群文件系统采用了一种并行控制机制。有些集群文件系统将把元数据保存在共享设备的一个分区里,另一些集群文件系统则会使用集中式元数据服务器来保存元数据。 不管采用哪种方案,集群中的所有节点都可以看到文件系统的状态,从而保证安全的并行访问。然而,如果你想保证系统的高利用率和消除单点故障问题,那么采用集中式元数据服务器的解决方案就要略逊一筹了。

  另一个注意事项:集群文件系统要求在节点发生故障时迅速做出反应。如果某个节点写入错误数据或由于某种原因停止关于元数据变化的通信,其他节点必须能够将它隔离出去。隔离可以通过多种方式来实现,最常用的方法是利用断电管理来实现。健康的节点可以在发现问题时第一时间关闭另一个节点电源(STONITH)以保全数据。
  集群文件系统词典

  GFS:全局文件系统

  GFS是应用最广泛的集群文件系统。它是由红帽公司开发出来的,允许所有集群节点并行访问。元数据通常会保存在共享存储设备或复制存储设备的一个分区里。

  OCFS:甲骨文集群文件系统

  从概念上来说,OCFS与GFS非常相似,现在OCFS 2已经被应用于Linux系统之中。

  VMFS:VMware的虚拟计算机文件系统

  VMFS是ESX服务器用来允许多个服务器访问同一个共享存储设备的集群文件系统。这样就可以实现虚拟机在不同服务器之间的无缝迁移,因为源服务器和目标服务器都可以访问同一个存储设备。日志是分布式的,ESX服务器之间也不会出现单节点故障。

  Lustre:Sun的集群分布式文件系统。

  Lustre是专门用于包含数千个节点的大型集群的分布式文件系统。Lustre已经支持Linux系统,但是高速计算环境之外的应用程序是有限的。

  Hadoop:一个象谷歌那样使用的分布式文件系统。

  这不是一个集群文件系统,但是却是一个分布式文件系统。我们将Hadoop收录进来是因为它的应用越来越广泛,而且利用Hadoop的存储架构设计决策的组合很多。但是默认配置下,你会在3个不同的节点上拥有3个数据副本。一旦数据发生变化,每个数据副本都会更新,因此,从某种意义上来说,它也可以被看做是集群文件系统。然而,Hadoop存在一个故障点隐患,即跟踪记录所有文件系统级数据的命名节点。

  做出最好选择

  有太多选择并不是坏事。你可以根据执行目标选择使用合适的集群或分布式文件系统以及存储架构。 只要有计划地使用,所有这些文件系统都可以发挥出应有的作用。
http://www.enet.com.cn/article/2009/0819/A20090819522806_2.shtml
GFS(Google File System): http://www.codechina.org/doc/google/gfs-paper/
MogileFS: http://www.danga.com/mogilefs
Hadoop/HDFS: http://hadoop.apache.org/core
KFS(Kosmos Distributed File System): http://kosmosfs.sourceforge.net
NDFS(Nutch Distributed File System): http://lucene.apache.org/nutch/, http://wiki.apache.org/nutch/NutchDistributedFileSystem
Gluster(Gluster File System): http://www.gluster.org
Coda(Coda File System): http://www.coda.cs.cmu.edu/
Global(Red Hat Global File System Redhat并购): http://www.redhat.com/gfs
Lustre(Lustre File System Sun并购): http://www.lustre.org
PVFS(Parallel Virtual File System,非开源): http://www.parl.clemson.edu/pvfs
GPFS(IBM General Parallel File System, 非开源): http://www-03.ibm.com/systems/clusters/software/gpfs
OpenAFS(Open Andrew File System IBM): http://www.openafs.org
XFS(SGI, 不算分布式文件系统): http://oss.sgi.com/projects/xfs
MOSIX: http://www.mosix.org
from:http://linux.blog.163.com/blog/static/9297023201082715051803/
zhuan:

Rank: 8Rank: 8

注册时间
2011-3-10
最后登录
2019-7-22
在线时间
133 小时
阅读权限
90
积分
36439
帖子
65
主题
22
精华
0
UID
12322
发表于 2011-11-29 12:01:24 |显示全部楼层
文章有点乱,有对GPFS和lustre有简单介绍,但是貌似没有对HDFS和MFS有相应的介绍吧,标题不对哦

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

IT运维专家网感谢您的支持

合作联系: QQ:67888954/MSN:cnseek@msn.com/mail:netseek@linuxtone.org

Archiver|手机版|感谢所有关心和支持过LinuxTone的朋友们 转载本站内容请注明原作者名及出处 ( 京ICP备08103151 )   |

GMT+8, 2020-3-29 01:45 , Processed in 0.027303 second(s), 14 queries , Apc On.

Powered by Discuz! X2 Licensed

© 2001-2011 Comsenz Inc.

回顶部