存储系统Ceph、MooseFS、GlusterFS、HDFS、DRBD介绍_Linux新闻

本文介绍存储系统Ceph、MooseFS、GlusterFS、HDFS、DRBD的特点，功能等，让你对这些都有一个了解。

存储系统Ceph、MooseFS、GlusterFS、HDFS、DRBD介绍

1.Ceph

Ceph是一个强大的存储系统，可在一个统一的系统中独特地提供对象，块（通过RBD）和文件存储，无论您是希望将块设备连接到虚拟机还是将非结构化数据存储在对象存储中，Ceph都可以在一个平台上提供它，Ceph中的所有内容都以对象的形式存储，RADOS对象存储区负责存储这些对象，而不管其数据类型如何，RADOS层确保数据始终保持一致状态且可靠，为了数据一致性，它执行数据复制、故障检测和恢复，以及跨群集节点的数据迁移和重新平衡。

Ceph提供符合POSIX标准的网络文件系统（CephFS），旨在实现高性能、大数据存储以及与传统应用程序的最大兼容性，对对象的无缝访问使用本机语言绑定或radosgw（RGW），这是一个与为S3和Swift编写的应用程序兼容的REST接口，另一方面，Ceph的RADOS块设备（RBD）提供对整个存储集群中条带化和复制的块设备映像的访问。

Ceph的特点：

一个单一、开放、统一的平台：块、对象和文件存储组合成一个平台，包括最新添加的CephFS。

互操作性：您可以使用Ceph存储提供最兼容的Amazon Web Services（AWS）S3对象存储实现之一。

精简配置：空间分配仅为虚拟，并且在需要时提供实际磁盘空间，这提供了更多的灵活性和效率。

复制：在Ceph存储中，所有存储的数据会自动从一个节点复制到多个其他节点，群集中的任何一次都存在三份数据。

自我修复：监视器不断监视您的数据集，如果其中一个副本丢失，则会自动生成一个副本，以确保始终有三个副本可用。

高可用性：在Ceph存储中，所有存储的数据会自动从一个节点复制到多个其他节点，这意味着，如果给定节点中的给定数据集被编译或被意外删除，则会有两个相同的副本使您的数据具有高可用性。

Ceph非常强大：您的群集可以用于任何事情，如果您希望存储非结构化数据或为数据提供块存储或提供文件系统，或者您希望应用程序通过librados直接联系您的存储，则可以在一个平台中使用它。

可扩展性：Ceph可以在集群中工作，可以在需要时增加，从而满足未来的规模需求。

Ceph最适合块存储，大数据或直接与librados通信的任何其他应用程序。

参考：在Ubuntu 18.04系统上安装Ceph Storage Cluster的方法。

2.MooseFS

MooseFS大约12年前推出，作为Gemius（一家在20多个国家/地区测量互联网的领先欧洲公司）的衍生产品，是大数据存储行业的突破性概念，它允许您使用经济实惠的商品硬件将数据存储和数据处理组合在一个单元中。

MooseFS的特点：

冗余：所有系统组件都是冗余的，如果发生故障，则会有一个对用户透明的自动故障转移机制。

节点计算：支持在数据节点上调度计算，通过利用空闲CPU和内存资源实现更好的整体系统TCO。

原子快照：在任何特定时间点即时和不间断地配置文件系统，此功能非常适合在线备份解决方案。

分层存储：将不同类别的数据分配给各种类型的存储介质，以降低总存储成本，热数据可以存储在快速SSD磁盘上，不常使用的数据可以移动到更便宜，速度更慢的机械硬盘驱动器上。

本机客户端：通过专为Linux，FreeBSD和MacOS系统设计的专用客户端（安装）组件实现增强的性能。

全局废纸篓：已删除对象的虚拟全局空间，可为每个文件和目录进行配置，借助于该有利特征，可以容易地恢复意外删除的数据。

配额限制：系统管理员可以灵活地设置限制以限制每个目录的数据存储容量。

滚动升级：能够在不中断服务的情况下执行一次一个节点的升级，硬件更换和添加，此功能允许您在不停机的情况下保持硬件平台的最新状态。

快速磁盘恢复：在硬盘或硬件故障的情况下，系统立即启动从冗余副本到系统内其他可用存储资源的并行数据复制，此过程比传统的磁盘重建方法快得多。

并行性：在并行执行线程中执行所有I/O操作，以提供高性能读/写操作。

管理界面：提供丰富的管理工具集，例如基于命令行和基于Web的界面。

3.GlusterFS

Gluster是一个免费的，可开源的可扩展网络文件系统，使用常见的现成硬件，您可以为媒体流，数据分析以及其他数据和带宽密集型任务创建大型分布式存储解决方案，基于GlusterFS的横向扩展存储系统适用于非结构化数据，如文档、图像、音频和视频文件以及日志文件，传统上，分布式文件系统依赖于元数据服务器，但Gluster不再使用它们，元数据服务器是单点故障，可能是扩展的瓶颈，相反，Gluster使用散列机制来查找数据。

Gluster的特点：

可扩展性：可扩展的存储系统，提供弹性和配额。

快照：可以使用卷和文件级快照，用户可以直接请求这些快照，这意味着用户无需打扰管理员创建它们。

存档：只读卷和一次写入多次读取（WORM）卷支持存档。

为了获得更好的性能，Gluster会为readdir（）缓存数据，元数据和目录条目。

集成：Gluster与oVirt虚拟化管理器以及服务器的Nagios监控器集成在一起。

大数据：对于那些希望使用Gluster文件系统中的数据进行数据分析的人，可以使用Hadoop分布式文件系统（HDFS）。

libgfapi：应用程序可以使用libgfapi绕过其他访问方法并直接与Gluster对话，这适用于对上下文切换敏感的工作负载或来自内核空间的副本。

参考：Ubuntu 18.04服务器中采用GlusterFS来设置高可用性存储。

4.HDFS

Hadoop分布式文件系统（HDFS）是一种分布式文件系统，允许以快速的速度同时存储和检索多个文件，它可以方便地在商用硬件上运行，并提供处理非结构化数据的功能，它提供对应用程序数据的高吞吐量访问，适用于具有大型数据集的应用程序，HDFS是Hadoop的主要组成部分，还有Hadoop YARN、Hadoop MapReduce和Hadoop Common，它是Hadoop框架的基本组件之一。

HDFS的功能：

数据复制：HDFS旨在可靠地在大型群集中的计算机上存储非常大的文件，它将每个文件存储为一系列块，除最后一个块之外的文件中的所有块都是相同的大小，复制文件的块以实现容错。

文件系统命名空间：HDFS支持传统的分层文件组织，用户或应用程序可以在这些目录中创建目录并存储文件，文件系统命名空间层次结构与大多数其他现有文件系统类似，可以创建和删除文件，将文件从一个目录移动到另一个目录，或重命名文件，HDFS尚未实现用户配额，HDFS不支持硬链接或软链接。

强大的：HDFS的主要目标是即使在出现故障时也能可靠地存储数据，三种常见的故障类型是NameNode故障、DataNode故障和网络分区。

无障碍：可以通过多种不同方式从应用程序访问HDFS，本地，HDFS为应用程序提供了Java API，此Java API的C语言包装器也可用，此外，HTTP浏览器还可用于浏览HDFS实例的文件，正在通过WebDAV协议公开HDFS的工作正在进行中。

可扩展性：HDFS旨在可靠地在大型群集中的计算机上存储非常大的文件，可以根据当时的期望需求增加或减少群集。

高可用性：Hadoop分布式文件系统旨在可靠地在大型群集中的计算机上存储非常大的文件，它将每个文件存储为一系列块，除最后一个块之外的文件中的所有块都是相同的大小，复制文件的块以实现容错，因此在发生任何故障时数据是高度可用的。

5.DRDB

DRBD是一个分布式复制存储系统，实现为内核驱动程序，多个用户空间管理应用程序和一些shell脚本，分布式复制块设备（逻辑卷架构中的逻辑块设备）镜像多个主机之间的块设备，以实现高度可用的集群，基于DRBD的群集通常用于向文件服务器，关系数据库（例如MySQL）和许多其他工作负载添加同步复制和高可用性，DRBD实现基本上可以用作共享磁盘文件系统，另一个逻辑块设备（例如LVM），传统文件系统或需要直接访问块设备的任何应用程序的基础。

DRDB的功能：

DRDB具有共享密钥身份验证。

它与LVM（逻辑卷管理器）兼容。

支持心跳/起搏器资源代理集成。

支持读取请求的负载平衡。

完全失败后自动检测最新数据。

Delta重新同步。

可以使用DRBD配置现有部署，而不会丢失数据。

自动带宽管理。

可定制的调整参数。

与同行进行在线数据验证。

高可用性：块设备镜像可阻止多个主机之间的设备，以实现高度可用的群集。

它集成了Xen等虚拟化解决方案，可以在Linux LVM堆栈的下方和顶部使用。

相关主题

第17章使用iSCSI服务部署网络存储