QuTS MEGA 操作系统
适用于企业级横向扩展存储

QuTS MEGA 基于Ceph 分布式存储架构，集成了服务高可用性和数据保护机制，为不断发展的企业数据提供稳定且可扩展的存储平台。

纠删码进一步提升系统，通过实现节点级容错能力，同时保持高存储效率。

企业为何需要 QuTS MEGA 横向扩展解决方案

常见挑战包括持续的数据增长、对服务中断零容忍，以及对可预测的数据保护和运维可管理性的需求。

金融行业

受监管驱动的长期数据保留

交易记录、通话录音和审计数据需长期保存且无丢失风险。通过高可用性和可靠的数据保护机制，可在不中断服务的情况下持续扩展容量。

医疗与科研

海量且持续增长的研究数据

基因组、影像及研究数据集持续增长。平台通过高效数据保护和自动自愈机制，提供长期稳定性，支持分析与科研工作负载。

半导体与制造业

大规模、长期的影像数据保存

工艺影像和监控录像快速积累。Scale-out 架构可随生产增长扩展，自动再平衡机制可防止性能和管理瓶颈。

满足多样化存储需求的全面能力

基于统一的 Scale-out 架构，QuTS MEGA 集成文件与对象服务，并支持主流协议，助力企业随数据增长灵活扩展。

一站式平台覆盖服务、协议与扩展性

专为企业级可用性设计，具备清晰的能力与 POC 及生产环境部署规范。

存储类型

支持多种数据格式的统一平台

文件存储 适用于共享文件夹、部门协作及影像 / 文件归档场景。
对象存储 适合长期保存、应用集成及 S3 API 连接。

协议

兼容企业应用及多种访问方式

SMB在 Windows 及 Active Directory 环境中常用的文件共享协议。
NFS在 Linux 及研发环境中广泛采用的文件服务协议。
S3 API用于应用集成和数据湖架构的标准对象存储接口。

可扩展架构

从初始部署到 PB 级扩展的清晰路径

3-96 节点横向扩展 从 3 个节点起步，可扩展至 96 个节点，实现 PB 级存储和高可用性。
无中断扩容 可根据需要添加节点，自动重平衡并内置数据保护。

※ 实际容量和性能可能因集群规模、服务配置及数据保护策略（如 EC 或副本）而有所不同。

核心能力

基于 Linux 和 Ceph 分布式架构，具备高可用性，提供企业级存储平台，支持冗余、容错和可扩展性。

高可用性

即使节点发生故障，服务也可持续运行

数据冗余

副本通过多份数据副本保障数据可用性，适用于需要快速访问和高可靠性的场景。
纠删码 利用 Ceph 的分布式 EC 机制，通过数学算法高效实现数据保护，在保持容错能力的同时优化存储效率。

容错

服务分布 服务运行在多个节点上，节点发生故障时可自动恢复或迁移，保障对外服务可用性。
自愈能力 通过副本或校验码自动重建丢失的数据，在减少人工干预的同时保障数据完整性。

业务连续性

动态再平衡 在节点增加或移除时自动重新分配数据，保持冗余一致性并防止热点，确保系统性能均衡。
滚动升级 在不中断服务的情况下进行系统升级和维护，保障业务持续运行和服务可用性。
数据存储可持续性 基于 Ceph 分布式架构构建，实现容量和性能从至少 3 个节点线性扩展至 96 个节点，支持企业数据的长期增长。

企业安全性与合规性

Active Directory 集成 与现有企业 AD 环境集成，提供集中认证和统一访问控制，简化用户管理。
审计日志 记录系统操作和数据访问活动，提供完整的审计追踪以满足合规和安全性分析需求。
一次写入多次读取（S3 WORM） 不可变对象锁定机制，防止数据被修改或删除，满足金融、医疗等行业的合规要求。

纠删码（EC）保护概述

以 EC 4+2 为例：“4 个数据分片”+“2 个校验分片”分布在 6 个节点上，允许较多 2 个节点同时故障而不会丢失数据。
QuTS MEGA 支持多种 EC 配置（如 8+2、8+3 等），可根据需求灵活选择容量效率和保护级别。

可视化说明：4 个数据 + 2 个校验

一个文件被分成 6 个片段，分布在 6 个节点上：4 个数据（D1–D4）和 2 个校验（P1–P2）。即使有 2 个节点发生故障，数据仍可被重建。

注意：这里展示的是 EC 4+2。还可选择其他配置，如 8+2、8+3 或 16+4，以满足不同的容量和保护需求。

EC 4+2 节点分布（示例配置）

NODE 1

Data

NODE 2

Data

NODE 3

Data

NODE 4

Data

NODE 5

Parity

NODE 6

Parity

场景 1：2 个节点故障 ✔︎ 数据受保护

即使节点 2 和节点 5 发生故障，系统仍可通过剩余片段（D1、D3、D4、P2）重建完整的数据集，数据不会丢失。

场景 2：3 个节点故障 ✕ 数据丢失

当有 3 个或以上节点同时发生故障时，剩余片段不足以重建数据，可能导致数据丢失。这超出了 EC 4+2 的容错范围。

容错能力（以 EC 4+2 为例） 支持较多 2 个节点同时故障而不会造成数据丢失。其他配置如 8+3，可容忍较多 3 个节点故障。

容量效率（可配置） EC 4+2 ≈ 66.7%；EC 8+2 ≈ 80%；EC 8+3 ≈ 72.7%。可根据所需保护级别和存储效率选择配置。

※ 本示例展示了节点级故障域下的保护能力。QuTS MEGA 支持多种 EC 配置（如 4+2、8+2、8+3、16+4 等），可根据集群规模、工作负载特性和保护需求进行选择。实际读写可用性可能受集群设置（如 min_size、服务层 HA 和负载设计）影响。

服务分布

服务运行在多个节点上。当某个节点发生故障时，服务会自动恢复并迁移，以保障集群持续可用。

自动服务恢复机制

降低单点故障风险，提升系统整体可用性

服务分布与自动故障转移示意图

✔ 正常状态：服务分布在多个节点上

NODE 1

SMB

Service

NFS

Service

NODE 2

Service

MGR

Service

NODE 3

MON

Service

OSD

Service

NODE 4

RGW

Service

MDS

Service

⬇

⚠ 节点 2 故障 → 自动服务迁移

NODE 1

SMB

Service

NFS

Service

NODE 2

—

Failed

NODE 3

MON

Service

OSD

Service

S3 ↺

Migrated

NODE 4

RGW

Service

MDS

Service

MGR ↺

Migrated

当节点 2 发生故障时，原本运行在该节点上的 S3 和 MGR 服务会自动迁移到节点 3 和节点 4，
确保服务不中断，用户无感知。

自动故障检测

持续监控节点健康状态，快速识别故障并触发恢复流程。

自动服务迁移

自动将故障节点上的服务迁移到健康节点，保障服务不中断。

负载分布

智能将服务分布在多个节点上，防止单节点过载并提升整体性能。

零人工干预

全自动故障恢复降低运维负担，并减少人为失误风险。

业务价值

适用于 7×24 小时运行、高并发负载及对高可用性有要求的重要应用。有效降低服务中断对业务的影响，同时提升用户体验。

自愈能力

自动检测并重建丢失或损坏的数据，保持数据的完整性和保护状态，无需人工干预。

智能数据恢复机制

通过副本或校验方式自动重建数据，保障数据长期完整性

自动数据重建示意图（3 副本示例）

✔ 正常状态：数据以 3 副本方式分布在各节点

NODE A

Data

Primary

File_001.mp4

File_002.jpg

File_003.pdf

NODE B

Data

Replica 1

File_001.mp4

File_002.jpg

File_003.pdf

NODE C

Data

Replica 2

File_001.mp4

File_002.jpg

File_003.pdf

⬇

⚠ 节点 B 检测到磁盘故障，发生数据丢失

NODE A

Data

Primary

File_001.mp4

File_002.jpg

File_003.pdf

NODE B

Data

Lost ✖︎

✖︎ Data Lost

Rebuilding...

NODE C

Data

Replica 2

File_001.mp4

File_002.jpg

File_003.pdf

⬇

✔ 自愈：数据自动从节点 A 或节点 C 重建到新的磁盘

NODE A

Data

Primary

Copying...

NODE B

Data ↺

Rebuilt

File_001.mp4 ✔︎

File_002.jpg ✔︎

File_003.pdf ✔︎

NODE C

Data

Replica 2

File_001.mp4

File_002.jpg

File_003.pdf

当节点 B 检测到数据丢失时，系统会自动从节点 A 或节点 C 复制完整的数据，
恢复 3 副本保护级别，无需人工干预，保障数据长期可靠性。

持续健康监测

定期扫描数据完整性，主动检测损坏或丢失的数据块。

自动数据重建

通过副本或纠删码校验自动重建丢失的数据，无需人工干预即可恢复数据完整性。

保护级别恢复

重建后自动恢复原有保护级别，防止长时间处于降级状态。

修复进度跟踪

降低运维负担和人为失误，适用于长期数据保留、合规及关键数据保护。

业务价值

减少运维压力和人工成本，降低人为失误风险。适用于长期数据保留、合规及关键数据保护场景，保障数据长期可靠性。

动态再平衡

当节点增加或移除时，自动重新分布数据，保持冗余一致性，防止存储热点。

智能数据再分布机制

确保集群资源均衡利用，实现高性能和容量效率

动态再平衡示意：新增节点后自动数据迁移

⚠ 新增节点前：3 个节点容量使用不均

NODE 1

容量使用情况

85%

Data Chunks: 850

Used: 8.5 TB

NODE 2

容量使用情况

82%

Data Chunks: 820

Used: 8.2 TB

NODE 3

容量使用情况

88%

Data Chunks: 880

Used: 8.8 TB

⚠️ 容量使用不均 — 节点 3 容量接近满载，可能成为性能瓶颈

向集群添加节点 4

⬇

再平衡进行中：数据自动迁移至新节点

NODE 1

容量使用情况

70%

Chunks: 700 -150

Used: 7.0 TB

NODE 2

容量使用情况

68%

Chunks: 680 -140

Used: 6.8 TB

NODE 3

容量使用情况

72%

Chunks: 720 -160

Used: 7.2 TB

NODE 4

容量使用情况

45%

Chunks: 450 +450

Used: 4.5 TB

⬇

✔️ 重平衡完成：4 个节点容量均衡，性能优化

NODE 1

容量使用情况

64%

Chunks: 640 ✔︎

Used: 6.4 TB

NODE 2

容量使用情况

62%

Chunks: 620 ✔︎

Used: 6.2 TB

NODE 3

容量使用情况

66%

Chunks: 660 ✔︎

Used: 6.6 TB

NODE 4

容量使用情况

63%

Chunks: 630 ✔︎

Used: 6.3 TB

✔️ 均衡的容量分布（62–66%）可防止热点并保持良好性能

添加节点 4 后，系统会自动将部分数据从节点 1–3 迁移到新节点，
实现四个节点间的容量均衡（约 62–66%），防止单一节点过载。

新节点自动集成

当新节点加入集群时，系统会自动迁移部分数据，以平衡存储利用率。

数据节点移除保护

在移除节点前，数据会自动迁移到其他节点，确保数据不丢失并维持设定的保护级别。

热点预防

自动检测负载不均并重新分布数据，防止热点。支持数据磁盘自动元数据迁移，在运行期间优化数据和元数据的放置。

I/O 性能优先

提供客户端 I/O 优先和恢复 I/O 优先调度模式，在重平衡或数据恢复操作期间保障关键业务性能。

业务价值

支持灵活的企业级扩展，随着业务增长可逐步增加节点且不中断服务。保持长期性能稳定，防止容量不均导致性能下降，降低扩容和运维复杂度。

监控与告警

通过深入的硬件监控、灵活的告警规则和广泛的集成能力提升运维响应和协作效率。

硬件监控与诊断

全面的硬件状态可视化

实时监控系统风扇、温度和电源模块状态。

硬件 LED 与驱动器定位

通过可视化硬件指示灯快速识别故障驱动器。

S.M.A.R.T. 健康监控

持续跟踪磁盘健康状况，提前预警潜在风险。

告警通知与监控集成

Prometheus + Alertmanager

支持通过 Email、SNMP Trap 和 Microsoft Teams 实时通知。

SNMP 与第三方监控平台

可与现有监控系统集成（如 PRTG Network Monitor）。

QNAP 服务作战室

集中展示集群健康状况、告警和事件，支持厂商远程监控和主动通知。

集群规模与节点型号

集群可由3 个节点起建立，较多可扩展至96 个节点。提供四种节点型号，覆盖入门级、大容量、高密度及高性能负载需求。

QSN-3000

Entry-level Scale-out Node

处理器

Intel® Xeon® E-2336
6 核 / 12 线程

内存

128GB DDR4 ECC UDIMM

驱动器配置

12 × 3.5" SATA
6 × 2.5" SATA

网络接口

2 × 10GbE BASE-T
2 × 2.5GbE BASE-T

外形规格

2U机架式

知道更多

QSN-3050

High-capacity Node

处理器

Intel® Xeon® E-2378
8 核心 / 16 线程

内存

128GB DDR4 ECC UDIMM

驱动器配置

24 × 3.5" SATA
6 × 2.5" SATA

网络接口

2 × 10GbE BASE-T
2 × 2.5GbE BASE-T

外形规格

4U机架式

知道更多

QSN-7530

High-performance Dense Node

处理器

AMD Ryzen™ 9 PRO 7945
12 核心 / 24 线程

内存

192GB DDR5 ECC RDIMM

驱动器配置

30 × 2.5" SATA

网络接口

2 × 10GbE BASE-T
2 × 2.5GbE BASE-T

外形规格

2U机架式

知道更多

QuTS MEGA 操作系统适用于企业级横向扩展存储

企业为何需要 QuTS MEGA 横向扩展解决方案

受监管驱动的长期数据保留

海量且持续增长的研究数据

大规模、长期的影像数据保存

满足多样化存储需求的全面能力

一站式平台覆盖服务、协议与扩展性

存储类型

协议

可扩展架构

核心能力

高可用性

数据 冗余

容错

业务连续性

企业安全性与合规性

纠删码（EC）保护概述

可视化说明：4 个数据 + 2 个校验

场景 1：2 个节点故障 ✔︎ 数据受保护

场景 2：3 个节点故障 ✕ 数据丢失

服务分布

自动服务恢复机制

✔ 正常状态：服务分布在多个节点上

⚠ 节点 2 故障 → 自动服务迁移

自动故障检测

自动服务迁移

负载分布

零人工干预

自愈能力

智能数据恢复机制

✔ 正常状态：数据以 3 副本方式分布在各节点

⚠ 节点 B 检测到磁盘故障，发生数据丢失

✔ 自愈：数据自动从节点 A 或节点 C 重建到新的磁盘

持续健康监测

自动数据重建

保护级别恢复

修复进度跟踪

动态再平衡

智能数据再分布机制

⚠ 新增节点前：3 个节点容量使用不均

再平衡进行中：数据自动迁移至新节点

✔️ 重平衡完成：4 个节点容量均衡，性能优化

新节点自动集成

数据节点移除保护

热点预防

I/O 性能优先

监控与告警

硬件监控与诊断

全面的硬件状态可视化

硬件 LED 与驱动器定位

S.M.A.R.T. 健康监控

告警通知与监控集成

Prometheus + Alertmanager

SNMP 与第三方监控平台

QNAP 服务作战室

集群规模与节点型号

QSN-3000

QSN-3050

QSN-7530

QuTS MEGA：为长期扩展而打造的分布式存储操作系统

QuTS MEGA 操作系统
适用于企业级横向扩展存储

数据冗余