企业为何需要 QuTS MEGA 横向扩展解决方案
常见挑战包括持续的数据增长、对服务中断零容忍,以及对可预测的数据保护和运维可管理性的需求。
受监管驱动的长期数据保留
交易记录、通话录音和审计数据需长期保存且无丢失风险。通过高可用性和可靠的数据保护机制,可在不中断服务的情况下持续扩展容量。
海量且持续增长的研究数据
基因组、影像及研究数据集持续增长。平台通过高效数据保护和自动自愈机制,提供长期稳定性,支持分析与科研工作负载。
大规模、长期的影像数据保存
工艺影像和监控录像快速积累。Scale-out 架构可随生产增长扩展,自动再平衡机制可防止性能和管理瓶颈。
满足多样化存储需求的全面能力
基于统一的 Scale-out 架构,QuTS MEGA 集成文件与对象服务,并支持主流协议,助力企业随数据增长灵活扩展。
一站式平台覆盖服务、协议与扩展性
专为企业级可用性设计,具备清晰的能力与 POC 及生产环境部署规范。
存储类型
支持多种数据格式的统一平台
-
文件存储 适用于共享文件夹、部门协作及影像 / 文件归档场景。
-
对象存储 适合长期保存、应用集成及 S3 API 连接。
协议
兼容企业应用及多种访问方式
-
SMB在 Windows 及 Active Directory 环境中常用的文件共享协议。
-
NFS在 Linux 及研发环境中广泛采用的文件服务协议。
-
S3 API用于应用集成和数据湖架构的标准对象存储接口。
可扩展架构
从初始部署到 PB 级扩展的清晰路径
-
3-96 节点横向扩展 从 3 个节点起步,可扩展至 96 个节点,实现 PB 级存储和高可用性。
-
无中断扩容 可根据需要添加节点,自动重平衡并内置数据保护。
※ 实际容量和性能可能因集群规模、服务配置及数据保护策略(如 EC 或副本)而有所不同。
核心能力
基于 Linux 和 Ceph 分布式架构,具备高可用性,提供企业级存储平台,支持冗余、容错和可扩展性。
高可用性
即使节点发生故障,服务也可持续运行
数据 冗余
-
副本 通过多份数据副本保障数据可用性,适用于需要快速访问和高可靠性的场景。
-
纠删码 利用 Ceph 的分布式 EC 机制,通过数学算法高效实现数据保护,在保持容错能力的同时优化存储效率。
容错
-
服务分布 服务运行在多个节点上,节点发生故障时可自动恢复或迁移,保障对外服务可用性。
-
自愈能力 通过副本或校验码自动重建丢失的数据,在减少人工干预的同时保障数据完整性。
业务连续性
-
动态再平衡 在节点增加或移除时自动重新分配数据,保持冗余一致性并防止热点,确保系统性能均衡。
-
滚动升级 在不中断服务的情况下进行系统升级和维护,保障业务持续运行和服务可用性。
-
数据 存储可持续性 基于 Ceph 分布式架构构建,实现容量和性能从至少 3 个节点线性扩展至 96 个节点,支持企业数据的长期增长。
企业安全性与合规性
-
Active Directory 集成 与现有企业 AD 环境集成,提供集中认证和统一访问控制,简化用户管理。
-
审计日志 记录系统操作和数据访问活动,提供完整的审计追踪以满足合规和安全性分析需求。
-
一次写入多次读取(S3 WORM) 不可变对象锁定机制,防止数据被修改或删除,满足金融、医疗等行业的合规要求。
纠删码(EC)保护概述
以 EC 4+2 为例:“4 个数据分片”+“2 个校验分片”分布在 6 个节点上,允许较多 2 个节点同时故障而不会丢失数据。
QuTS MEGA 支持多种 EC 配置(如 8+2、8+3 等),可根据需求灵活选择容量效率和保护级别。
可视化说明:4 个数据 + 2 个校验
一个文件被分成 6 个片段,分布在 6 个节点上:4 个数据(D1–D4)和 2 个校验(P1–P2)。即使有 2 个节点发生故障,数据仍可被重建。
注意:这里展示的是 EC 4+2。还可选择其他配置,如 8+2、8+3 或 16+4,以满足不同的容量和保护需求。
场景 1:2 个节点故障 ✔︎ 数据受保护
即使节点 2 和节点 5 发生故障,系统仍可通过剩余片段(D1、D3、D4、P2)重建完整的数据集,数据不会丢失。
场景 2:3 个节点故障 ✕ 数据丢失
当有 3 个或以上节点同时发生故障时,剩余片段不足以重建数据,可能导致数据丢失。这超出了 EC 4+2 的容错范围。
※ 本示例展示了节点级故障域下的保护能力。QuTS MEGA 支持多种 EC 配置(如 4+2、8+2、8+3、16+4 等),可根据集群规模、工作负载特性和保护需求进行选择。实际读写可用性可能受集群设置(如 min_size、服务层 HA 和负载设计)影响。
服务分布
服务运行在多个节点上。当某个节点发生故障时,服务会自动恢复并迁移,以保障集群持续可用。
自动服务恢复机制
降低单点故障风险,提升系统整体可用性
✔ 正常状态:服务分布在多个节点上
⚠ 节点 2 故障 → 自动服务迁移
当节点 2 发生故障时,原本运行在该节点上的 S3 和 MGR 服务会自动迁移到节点 3 和节点 4,
确保服务不中断,用户无感知。
自动故障检测
持续监控节点健康状态,快速识别故障并触发恢复流程。
自动服务迁移
自动将故障节点上的服务迁移到健康节点,保障服务不中断。
负载分布
智能将服务分布在多个节点上,防止单节点过载并提升整体性能。
零人工干预
全自动故障恢复降低运维负担,并减少人为失误风险。
适用于 7×24 小时运行、高并发负载及对高可用性有要求的重要应用。有效降低服务中断对业务的影响,同时提升用户体验。
自愈能力
自动检测并重建丢失或损坏的数据,保持数据的完整性和保护状态,无需人工干预。
智能数据恢复机制
通过副本或校验方式自动重建数据,保障数据长期完整性
✔ 正常状态:数据以 3 副本方式分布在各节点
⚠ 节点 B 检测到磁盘故障,发生数据丢失
✔ 自愈:数据自动从节点 A 或节点 C 重建到新的磁盘
当节点 B 检测到数据丢失时,系统会自动从节点 A 或节点 C 复制完整的数据,
恢复 3 副本保护级别,无需人工干预,保障数据长期可靠性。
持续健康监测
定期扫描数据完整性,主动检测损坏或丢失的数据块。
自动数据重建
通过副本或纠删码校验自动重建丢失的数据,无需人工干预即可恢复数据完整性。
保护级别恢复
重建后自动恢复原有保护级别,防止长时间处于降级状态。
修复进度跟踪
降低运维负担和人为失误,适用于长期数据保留、合规及关键数据保护。
减少运维压力和人工成本,降低人为失误风险。适用于长期数据保留、合规及关键数据保护场景,保障数据长期可靠性。
动态再平衡
当节点增加或移除时,自动重新分布数据,保持冗余一致性,防止存储热点。
智能数据再分布机制
确保集群资源均衡利用,实现高性能和容量效率
⚠ 新增节点前:3 个节点容量使用不均
⚠️ 容量使用不均 — 节点 3 容量接近满载,可能成为性能瓶颈
再平衡进行中:数据自动迁移至新节点
✔️ 重平衡完成:4 个节点容量均衡,性能优化
✔️ 均衡的容量分布(62–66%)可防止热点并保持良好性能
添加节点 4 后,系统会自动将部分数据从节点 1–3 迁移到新节点,
实现四个节点间的容量均衡(约 62–66%),防止单一节点过载。
新节点自动集成
当新节点加入集群时,系统会自动迁移部分数据,以平衡存储利用率。
数据节点移除保护
在移除节点前,数据会自动迁移到其他节点,确保数据不丢失并维持设定的保护级别。
热点预防
自动检测负载不均并重新分布数据,防止热点。支持数据 磁盘自动元数据迁移,在运行期间优化数据和元数据的放置。
I/O 性能优先
提供客户端 I/O 优先和恢复 I/O 优先调度模式,在重平衡或数据恢复操作期间保障关键业务性能。
支持灵活的企业级扩展,随着业务增长可逐步增加节点且不中断服务。保持长期性能稳定,防止容量不均导致性能下降,降低扩容和运维复杂度。
监控与告警
通过深入的硬件监控、灵活的告警规则和广泛的集成能力提升运维响应和协作效率。
硬件监控与诊断
全面的硬件状态可视化
实时监控系统风扇、温度和电源模块状态。
硬件 LED 与驱动器定位
通过可视化硬件指示灯快速识别故障驱动器。
S.M.A.R.T. 健康监控
持续跟踪磁盘健康状况,提前预警潜在风险。
告警通知与监控集成
Prometheus + Alertmanager
支持通过 Email、SNMP Trap 和 Microsoft Teams 实时通知。
SNMP 与第三方监控平台
可与现有监控系统集成(如 PRTG Network Monitor)。
QNAP 服务作战室
集中展示集群健康状况、告警和事件,支持厂商远程监控和主动通知。
集群规模与节点型号
集群可由3 个节点起建立,较多可扩展至96 个节点。提供四种节点型号,覆盖入门级、大容量、高密度及高性能负载需求。
QSN-3000
Entry-level Scale-out Node
6 核 / 12 线程
6 × 2.5" SATA
2 × 2.5GbE BASE-T
QSN-3050
High-capacity Node
8 核心 / 16 线程
6 × 2.5" SATA
2 × 2.5GbE BASE-T
QSN-7530
High-performance Dense Node
12 核心 / 24 线程
2 × 2.5GbE BASE-T