【转】mogilefs管理

[不指定 2014/06/24 12:58 | by ipaddr ]

扶凯关于mogilefs的文章已经非常全面和具体了,读完所有这些文章应该可以算是精通mogilefs,简单引用一下:

通用 MogileFS 维护手册
http://www.php-oa.com/2012/03/14/mogilefs-maintenance.html

MogileFS 文件系统检查
http://www.php-oa.com/2012/03/14/mogilefs-fsck.html

MogileFS Rebalance(文件的重新均衡)
http://www.php-oa.com/2012/03/27/running-a-mogilefs-rebalance.html

MogileFS 中怎么删除主机
http://www.php-oa.com/2012/07/28/mogilefs-delete-host.html

在 MogileFS 中使用 Nginx
http://www.php-oa.com/2012/03/09/mogilefs-nginx.html

MogileFS 高级排错
http://www.php-oa.com/2011/06/30/mogilefs-troubleshooting-request-failure-fetching.html

其它:
http://www.php-oa.com/tag/mogilefs


MogileFS 是一个分布式数据存储的系统,它可以有很多的存储节点和许多 trackers. 然而,它必须有一个单一的元数据存储,这是 trackers 的对所有文件的坐标点. 我要重复一次.因为这个地方太值得多提一下:所有的 trackers 必须指向相同的数据库实例.他们使用advisory locking 来确保他们不复制过程中发生碰撞,并通过事物协调队列处理.没有这个,你可能会永久丢失数据.

可以看出,mogilefs的核心在DB,所有元数据和协调都是通过DB来完成的。

     MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器).

    目前使用 MogileFS 的公司非常多,比如国外的一些公司,日本前几名的公司基本都在使用这个.
国内所知道的使用 MogileFS 的公司有图片托管网站 yupoo又拍,digg, 土豆, 豆瓣,1 号店, 大众点评,搜狗,安居客等等网站.基本很多网站容量,图片都超过 30T 以上。

    MogileFS 是 51.com 的存储设计的大师碧轩非常推荐的,51 的集群文件系统也是基于这个原理实现的.简单来讲 MogileFS 是基于 Google File System 实作出来的.

官方的介绍网站:
http://www.danga.com/mogilefs/

Google Code 上的信息
http://code.google.com/p/mogilefs/
这个地址有很多值得读读的信息,还有那些用户在使用 MogileFS ,以级使用多大的量,详细内容见http://code.google.com/p/mogilefs/wiki/Users.

普通文件存储的方法

  • rsync
  • NAS/SAN
  • FTPd
  • WebDAV
  • NFS

MogileFS 特性就介绍,官方介绍

  • 应用层 – 不需要特殊的核心组件
  • 无单点失败 — MogileFS分布式文件存储系统安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败.(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器.
  • 自动的文件复制 — 基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求.比如你有一个图片网站,你可以设置原始的JPEG图片需要复制 至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么MogileFS分布式文件存储系统可以重新建立遗失的拷贝数.用这种办法,MogileFS(不做RAID)可以节约磁盘,否则你将存储同样的拷贝多份,完全没有必要.
  • “比RAID好多了”– 在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问. MogileFS分布式文件存储系统在不同的机器之间进行文件复制,因此文件始终是可用的.
  • 传输中立,无特殊协议 — MogileFS分布式文件存储系统客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下.
  • 简单的命名空间 –文件通过一个给定的key来确定,是一个全局的命名空间.你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突.
  • 不用共享任何东西 — MogileFS分布式文件存储系统不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘.
  • 不需要RAID — 在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS分布式文件存储系统已经提供了.

MogileFS 的结构图


在使用前,我们需要对 MogileFS 有个基本的了解,就是他的三个大的部分,Tracker(Database) , Storage Nodes 和 Client 组成.有二个服务进程 MogileFSd 和 mogstored .

工作原理如图:
客户端.连接到一个域,然后在域中拿着文件的 key 来查文件的位置,然后通过查到集群中的位置来打开这个文件.

下面的部分的详细介绍

MogileFS 的三个大的部分


     前面提到 Tracker(Database) , Storage Nodes 和 Client 组成,我们这先不讲 Client.因为Client实际上是一个 Perl 的模块,可以写程序调用该模块来操作 MogileFS 系统,对整个系统进行读写操作.另外,象 nginx 之类有相关的客户端模块.另外也有做成象文件系统一样采用 fuse 方式挂载看起来象一个本地文件系统.其它语言的客户端也非常多.
 

  • Tracker(跟踪器 ,调度器)- (MogileFSd 进程)

这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器.MogileFSd 进程就是 trackers 进程程序,类似 MogileFS 的 wiki 上介绍的,trackers 做了很多工作,Replication ,Deletion,Query,Reaper,Monitor 等等.这个是基于事件的( event-based ) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到多个"query workers"中,然后让 MogileFSd 的子进程去处理.
mogadm,mogtool 的所有操作都要跟 trackers 打交道,Client 的一些操作也需要定义好 trackers,因此最好同时运行多个 trackers 来做负载均衡.trackers 也可以只运行在一台机器 上,也可以跟其他程序运行在一起(不建议).
tracker 配置文件: /etc/mogilefs/mogilefsd.conf

  • 数据库(MySQL)部分

如上图所显示的,数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它.你可以用 mogdbsetup 程序来初始化数据库.因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS 将处于不可用状态.因此最好是HA结构.

  • 存储节点(Storage Nodes )-(mogstored 进程, Apache 和 Nginx 等)

实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情.任何 WebDAV 服务器都可以, 不过推荐使用 mogstored . MogileFSd 可以配置到两个机器上使用不同端口… mogstored 来进行所有的 DAV 操作和流量,IO监测, 并且你自己选择的 HTTP 服务器(默认为 perlbal)用来做 GET 操作给客户端提供文件.
典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后 mogstored 程序的启动将会使本机成为一个存储节点.当然还需要 mogadm 这个工具增加这台机器到 Cluster 中.
mogstored 的配置文件: /etc/mogilefs/mogstored.conf

MogileFS 的二个服务进程

这二个程序分别对应上面的部分
MogileFSd — MogileFS 的主守护进程:

就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制.

mogstored — MogileFS 存储守护进程

这个就是上面指的存储节点(Storage Nodes ),由 /etc/MogileFS/mogstored.conf 这个配置文件控制.

MogileFS 的其它


     有几个小工具,主要就是 mogadm,mogtool 这两个工具了,用来在命令行下控制整个 MogileFS 系统以及查看状态等等.我后面会针对这个进行详细的讲解.

MogileFS 复制策略
     在 MogileFS 中,默认的 MogileFS::ReplicationPolicy::MultipleHosts 会试着 put 文件到不同主机的硬盘中.如果只有一个主机和2个硬盘,很明现这个是不行的,但它还是会勉强的 put 到相同的主机.
如果你有三个硬盘,设置的最小的复制份数为 2,它会 put 2 个复本到不同的主机.如果你有 2 个主机 4 个硬盘设置的最小复制份数为 3,你会得到 3 个复本在不同的硬盘设备上,但是会有二份在同一个主机上.这认为是没问题的.

High-level 流程:

  • 应用程序请求打开一个文件 (通过RPC 通知到 tracker, 找到一个可用的机器). 做一个 “create_open” 请求.
  • tracker 做一些负载均衡(load balancing)处理,决定应该去哪儿,然后给应用程序一些可能用的位置。
  • 应用程序写到其中的一个位置去 (如果写失败,他会重新尝试并写到另外一个位置去).
  • 应用程序 (client) 通过”create_close” 告诉tracker文件写到哪里去了.
  • tracker 将该名称和域命的名空间关联 (通过数据库来做的)
  • tracker, 在后台, 开始复制文件,知道他满足该文件类别设定的复制规则
  • 然后,应用程序通过 “get_paths” 请求 domain+key (key == “filename”) 文件, tracker基于每一位置的I/O繁忙情况回复(在内部经过 database/memcache/etc 等的一些抉择处理), 该文件可用的完整 URLs地址列表.
  • 应用程序然后按顺序尝试这些URL地址. (tracker’持续监测主机和设备的状态,因此不会返回死连接,默认情况下他对返回列表中的第一个元素做双重检查,除非你不要他这么做..)

近来大家在安装最新的 MogileFS 时,会发现测试的时候,怎么样复制文件的过程都不正常.使用 telnet 到 7001 中使用 !watch 来查看时会不断的报下面的错(详细使用见 MogileFS 高级排错).

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
!watch
Added you to watcher list.
.
:: Child 10106 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10091 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10121 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10134 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10120 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10135 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10136 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.
:: Child 10149 (replicate) died: 256 (UNEXPECTED)
:: Child 10150 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 8, wants 10, making 2.
:: Child 10152 (replicate) died: 256 (UNEXPECTED)
:: Job replicate has only 9, wants 10, making 1.

上次我使用 MogileFS 的 DEBUG 模式跟过这个问题,是由于 Sys::Syscall 这个模块升级成 0.25 的新版本引起的.
我们可以使用下面的命令来检查当前的版本

1
2
$ perl -MSys::Syscall -e 'print $Sys::Syscall::VERSION'
0.25

如果发现是显示上面的 0.25 就一定会出问题.建议退回到 0.23 就不会在出问题了.所以建议大家在安装完 MogileFS 后,先退回这个模块到 0.23.

二个月以前发现这个问题,近来很多人来问我,发现问题还很严重,特此记录.希望能帮到大家.
ps: 最新的 MogileFS 的客户端连接数据库一定要求要有密码,不然启动会有问题…

分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]