NFS over RDMA · QuTS hero · TS-h1290FX

您的 GPU 不应
为您的存储等待

每一毫秒的 I/O 等待时间都会浪费宝贵的 GPU 计算能力。
TS-h1290FX 结合 NFS over RDMA,确保存储性能与计算速度同步。

100× 延迟降低
85% CPU 负载降低
100Gbps 接近线速的吞吐量
<5% GPU 等待时间
滚动

您的 GPU 有多少时间
在等待数据?

AI 训练成本由 GPU 时间决定,但由于存储 I/O 瓶颈,超过 40% 的计算时间被浪费。

01

TCP 协议栈的隐性成本

每次数据读取时,CPU 都必须处理 TCP 数据包分片、校验和计算以及内核上下文交换机。这些开销对 AI 计算没有任何价值,却悄然消耗高达 99% 的 CPU 资源。

CPU 占用率 ≥ 99%
02

内存拷贝的四重成本

在传统 NFS 路径中,相同的数据在到达 GPU 之前,需要在内核缓冲区和用户空间之间拷贝 4-6 次。每一次拷贝都会增加延迟,每增加一微秒延迟都会降低计算能力。

延迟 100–500 微秒
03

GPU 空闲的实际成本

以 8×H100 集群为例,云端成本每小时超过 24 美元。当因 I/O 瓶颈导致 GPU 利用率降至 60% 时,几乎每小时有 10 美元被白白浪费。

GPU 空闲 > 40%
04

规模越大,瓶颈越明显

单卡 GPU 尚可勉强应对,但扩展到 4、8 或 16 张 GPU 并发从同一存储读取时,传统 TCP NFS 争用延迟会呈指数级加剧。

多节点并发临界点

两条路径,
结果截然不同

NFS over RDMA 并非对传统协议的小幅调整,而是从存储到 GPU 内存,深入重构了整个数据路径。

传统 TCP 协议的 NFS 性能瓶颈
应用发起读取请求 AI 训练任务请求下一批数据
进入内核态 — 上下文交换机 #1 应用交换机到内核;CPU 需保存 / 恢复所有寄存器状态,耗时 1–10 微秒
完整 TCP/IP 协议栈处理 TCP 分片、重传和校验和计算均由 CPU 执行,无法卸载。
NIC 发送数据 数据被封装并发送到网络
返回内核 — 上下文交换机 #2 接收端再次进入内核模式,触发第二次上下文交换机。
数据被复制 4~6 次 内核缓冲区 → DMA 缓冲区 → 用户空间;每次复制都会消耗 CPU 和内存带宽。
应用较终获得数据 等待期间 GPU 处于空闲状态。
端到端延迟100 – 500 微秒
CPU 占用率≈ 99%
GPU 等待比> 40%
NFS over RDMA (RoCE) TS-h1290FX
应用发起读取请求 AI 训练任务请求下一批数据
内核旁路 — 直接 HCA 通信 应用绕过操作系统内核,直接与 RDMA 网卡(HCA)通信,消除上下文交换机。
硬件卸载全部协议处理 HCA 在硬件层面完成所有网络协议计算,CPU 可专注于 AI 计算。
零拷贝直接内存写入 数据直接从 NAS NVMe 驱动器写入 AI 服务器应用内存,无需中间拷贝。
数据就绪,GPU 立即开始计算 整个数据路径无内核交换机、冗余拷贝和协议栈 CPU 占用。
端到端延迟1 – 2 微秒
CPU 占用率≈ 15%
GPU 等待比< 5%

背后的数据
TS-h1290FX

随机读取 816K
4K 随机读取 IOPS
消除训练数据 I/O 等待
较大容量 737TB
12 × 61.44 TB NVMe U.2
PCIe Gen 4 全闪存阵列
较大内存 1 TB
DDR4 ECC RDIMM 3200 MHz
8 插槽 × 128 GB
处理器 16 核
AMD EPYC™ 7302P
较高 3.3 GHz 加速频率
内置网络 2×25G
SFP28 + 2×2.5GbE
4× PCIe Gen 4 扩展插槽
可扩展至 100G
安装 QNAP QXG-100G2SF
实现全速 RDMA 连接
ZFS 快照
近乎的快照还原点
结合 WORM 不可变性
能效 24/7
全闪存低功耗设计
支持生产线持续分析

清晰可见差异
一目了然

规格项目 QNAP TS-h1290FX 竞品 A(SATA NAS) 竞品 B(企业级 AFA)
处理器 AMD EPYC™ 7302P 16 核 / 3.3 GHz 高性能 Intel Xeon D-1541 8 核 / 2.7 GHz 高端 Intel 系列
存储接口 NVMe PCIe Gen 4 ×4 U.2 高速 SATA 6 Gb/s NVMe / SAS / FC
NVMe 插槽 12 × 2.5" U.2 PCIe Gen 4 无原生支持(需适配器)不支持 48 × 2.5" NVMe
NFS over RDMA ✓ 优化原生支持 原生支持 ✗ 不支持 不支持 △ 部分支持
内置网络 2× 25GbE SFP28 + 2× 2.5GbE 2× 10GbE + 4× 1GbE 多路 25/100GbE(视配置而定)
PCIe 扩展 4× PCIe Gen 4 Gen 4 2× PCIe Gen 3 高密度多插槽
较大内存 1 TB DDR4 ECC 3200 MHz 64 GB DDR4 2666 MHz 1,280 GB
ZFS 文件系统 ✓ QuTS hero 原生集成 取决于厂商
S3 对象存储 ✓ QuObjects(含对象锁定) 取决于厂商
多租户隔离 ✓ NFS 共享 + ZFS 快照隔离 有限支持 已支持

谁在使用,
以及它解决的问题

🤖

AI / LLM 模型训练

多台 GPU 节点并行读取数百 GB 训练集。在传统 NFS 下,I/O 等待时间超过计算时间。RDMA 确保数据传输满足 GPU 需求。

GPU 利用率提升 40% → >95%
单轮训练时间 减少 30–60%
存储 CPU 负载 99% → 15%
🏥

智能医疗影像 AI

病理切片和 3D DICOM 图像常达数 GB。如果 AI 辅助诊断在读取时卡顿,临床效益将大幅受影响。低延迟存储让诊断 AI 高效运行。

图像预处理加速 多通道并行无减速
报告生成等待 响应时间大幅缩短
数据完整性 ZFS 自愈保护
🏭

半导体良率大数据分析

产线每秒生成大量工艺数据。AI 模型需实时分析历史数据,以找出关键良率变量。I/O 延迟导致分析滞后,较终影响良率。

历史数据检索速度 毫秒级 → 微秒级访问
7x24 小时持续分析 全闪存低功耗支持
TCO 精简硬件实现企业级性能

你可能想问的,
都在这里

RDMA 是否需要专用的网络交换机?我可以使用现有的数据中心架构吗?
NFS over RDMA(RoCE v2)可在标准以太网网络上运行,但需要支持 PFC(优先级流控)的交换机,以实现无损以太网环境。大多数现代企业级交换机(如 Mellanox/NVIDIA Spectrum、Cisco Nexus、Arista 系列)均支持此功能。QNAP 可为帮助提供网络规划建议,以确认您的现有环境是否兼容。
NFS over RDMA 与传统 NFS over TCP 之间的实际延迟差距有多大?
在实验室条件下,NFS over TCP 的端到端延迟通常为 100–500 微秒(μs),主要瓶颈来自内核上下文交换机和内存拷贝。NFS over RDMA 可将延迟压缩至 1–2 μs,约提升 100 倍。对于频繁小批量随机读取的 AI 训练场景,这一差距可直接带来 GPU 利用率提升和整体训练周期缩短。
ZFS 的空间效率如何?压缩和去重对 AI 训练集是否有效?
ZFS 具备内置的实时 LZ4/Zstandard 压缩和块级去重功能。对于包含大量相似样本的图像训练集,压缩比通常可达 1.3–2 倍;而对于基于文本的数据集(如分词语料库),压缩效果更加明显。去重功能尤其适合存储多个模型检查点版本,有望节省大量空间。在 ZFS 中,压缩由硬件辅助完成,对 I/O 性能影响较小。
我们只有 4 块 GPU,TS-h1290FX 值得投资吗?
4 块高端 GPU(如 H100/A100)的每小时计算成本已经相当可观。即使在小规模集群中,如果存储 I/O 导致 GPU 利用率低于 70%,就意味着超过 30% 的计算投入被浪费。投资 TS-h1290FX 通常能在几个月到一年内收回成本,这主要得益于 GPU 利用率提升带来的性能收益。如需具体 TCO 计算,欢迎联系销售团队。
TS-h1290FX 是否支持多团队同时使用(多租户)?
支持。TS-h1290FX 可配置多个独立的 NFS 共享、单独的用户账户和网络隔离。结合 ZFS 数据集和快照机制,您可以为每个团队或部门建立独立的存储空间、备份策略和访问控制,适用于托管服务提供商(MSP)或大型企业内部多部门场景。
与纯云端 AI 训练平台相比,本地部署的 TS-h1290FX 有哪些优势?
云平台的主要挑战包括高昂的数据传输费用(出口成本)、敏感训练数据的合规风险,以及长期计算成本难以预测。TS-h1290FX 提供高速本地存储,确保数据始终留在本地,并通过 RDMA 匹配高端云端存储的 I/O 性能,实现性能、数据主权和 TCO 的平衡。
TS-h1290FX 能否集成到现有的 MLOps 工作流(如 Kubernetes、Kubeflow)中?
可以。TS-h1290FX 提供标准的 NFS v4.1 挂载,Kubernetes 可通过 PersistentVolume(PV)直接使用。在支持 RDMA 的 Kubernetes 节点上,配合 RDMA Device Plugin 可轻松实现全速 NFS over RDMA 连接。此外,通过 QuObjects 提供的 S3 兼容端点,可无缝集成到使用 S3 协议的 MLOps 工具链(如 MLflow artifact store 或 DVC remote 存储)中。
我们如何对模型检查点进行备份和灾难恢复?
TS-h1290FX 提供多层保护策略:ZFS 快照可按计划每小时自动运行,提供细粒度的还原点;配合另一台 ZFS NAS,SnapSync 可实现异地实时块级同步用于灾备;长期归档方面,Hybrid Backup Sync(HBS 3)支持将数据备份到云端(AWS S3、Azure Blob、B2 等)。这三重保护可根据您的 RTO/RPO 需求灵活配置。
TS-h1290FX 是否支持 S3 对象存储协议?
支持。安装 QuObjects 后,TS-h1290FX 可作为本地 S3 兼容对象存储端点,支持对象锁定(WORM)不可变存储。这使 AI 混合工作流程成为可能:在训练阶段通过 RDMA 的 NFS 实现高速数据集读取,在推理阶段通过 S3 协议实现模型版本和分析结果的安全存储与管理。

消除 GPU 等待时间

TS-h1290FX × NFS over RDMA — 本地 AI 训练的存储基础架构

查看产品页面 联系销售团队