通过 RDMA 上的 NFS 消除 AI 存储瓶颈

问题诊断

您的 GPU 有多少时间
在等待数据？

AI 训练成本由 GPU 时间决定，但由于存储 I/O 瓶颈，超过 40% 的计算时间被浪费。

TCP 协议栈的隐性成本

每次数据读取时，CPU 都必须处理 TCP 数据包分片、校验和计算以及内核上下文交换机。这些开销对 AI 计算没有任何价值，却悄然消耗高达 99% 的 CPU 资源。

CPU 占用率 ≥ 99%

内存拷贝的四重成本

在传统 NFS 路径中，相同的数据在到达 GPU 之前，需要在内核缓冲区和用户空间之间拷贝 4-6 次。每一次拷贝都会增加延迟，每增加一微秒延迟都会降低计算能力。

延迟 100–500 微秒

GPU 空闲的实际成本

以 8×H100 集群为例，云端成本每小时超过 24 美元。当因 I/O 瓶颈导致 GPU 利用率降至 60% 时，几乎每小时有 10 美元被白白浪费。

GPU 空闲 > 40%

规模越大，瓶颈越明显

单卡 GPU 尚可勉强应对，但扩展到 4、8 或 16 张 GPU 并发从同一存储读取时，传统 TCP NFS 争用延迟会呈指数级加剧。

多节点并发临界点

技术方案

两条路径，
结果截然不同

NFS over RDMA 并非对传统协议的小幅调整，而是从存储到 GPU 内存，深入重构了整个数据路径。

传统 TCP 协议的 NFS 性能瓶颈

①

应用发起读取请求 AI 训练任务请求下一批数据

进入内核态 — 上下文交换机 #1 应用交换机到内核；CPU 需保存 / 恢复所有寄存器状态，耗时 1–10 微秒

完整 TCP/IP 协议栈处理 TCP 分片、重传和校验和计算均由 CPU 执行，无法卸载。

②

NIC 发送数据 数据被封装并发送到网络

返回内核 — 上下文交换机 #2 接收端再次进入内核模式，触发第二次上下文交换机。

数据被复制 4~6 次 内核缓冲区 → DMA 缓冲区 → 用户空间；每次复制都会消耗 CPU 和内存带宽。

③

应用较终获得数据 等待期间 GPU 处于空闲状态。

端到端延迟100 – 500 微秒

CPU 占用率≈ 99%

GPU 等待比> 40%

NFS over RDMA (RoCE) TS-h1290FX

✓

应用发起读取请求 AI 训练任务请求下一批数据

✓

内核旁路 — 直接 HCA 通信 应用绕过操作系统内核，直接与 RDMA 网卡（HCA）通信，消除上下文交换机。

✓

硬件卸载全部协议处理 HCA 在硬件层面完成所有网络协议计算，CPU 可专注于 AI 计算。

✓

零拷贝直接内存写入 数据直接从 NAS NVMe 驱动器写入 AI 服务器应用内存，无需中间拷贝。

✓

数据就绪，GPU 立即开始计算 整个数据路径无内核交换机、冗余拷贝和协议栈 CPU 占用。

端到端延迟1 – 2 微秒

CPU 占用率≈ 15%

GPU 等待比< 5%

规格对比

清晰可见差异
一目了然

规格项目	QNAP TS-h1290FX	竞品 A（SATA NAS）	竞品 B（企业级 AFA）
处理器	AMD EPYC™ 7302P 16 核 / 3.3 GHz 高性能	Intel Xeon D-1541 8 核 / 2.7 GHz	高端 Intel 系列
存储接口	NVMe PCIe Gen 4 ×4 U.2 高速	SATA 6 Gb/s	NVMe / SAS / FC
NVMe 插槽	12 × 2.5" U.2 PCIe Gen 4	无原生支持（需适配器）不支持	48 × 2.5" NVMe
NFS over RDMA	✓ 优化原生支持原生支持	✗ 不支持不支持	△ 部分支持
内置网络	2× 25GbE SFP28 + 2× 2.5GbE	2× 10GbE + 4× 1GbE	多路 25/100GbE（视配置而定）
PCIe 扩展	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	高密度多插槽
较大内存	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1,280 GB
ZFS 文件系统	✓ QuTS hero 原生集成	✗	取决于厂商
S3 对象存储	✓ QuObjects（含对象锁定）	✗	取决于厂商
多租户隔离	✓ NFS 共享 + ZFS 快照隔离	有限支持	已支持

适用场景

谁在使用，
以及它解决的问题

🤖

AI / LLM 模型训练

多台 GPU 节点并行读取数百 GB 训练集。在传统 NFS 下，I/O 等待时间超过计算时间。RDMA 确保数据传输满足 GPU 需求。

GPU 利用率提升 40% → >95%

单轮训练时间减少 30–60%

存储 CPU 负载 99% → 15%

🏥

智能医疗影像 AI

病理切片和 3D DICOM 图像常达数 GB。如果 AI 辅助诊断在读取时卡顿，临床效益将大幅受影响。低延迟存储让诊断 AI 高效运行。

图像预处理加速多通道并行无减速

报告生成等待响应时间大幅缩短

数据完整性 ZFS 自愈保护

🏭

半导体良率大数据分析

产线每秒生成大量工艺数据。AI 模型需实时分析历史数据，以找出关键良率变量。I/O 延迟导致分析滞后，较终影响良率。

历史数据检索速度毫秒级 → 微秒级访问

7x24 小时持续分析全闪存低功耗支持

TCO 精简硬件实现企业级性能

常见问题

你可能想问的，
都在这里

RDMA 是否需要专用的网络交换机？我可以使用现有的数据中心架构吗？ ▾

NFS over RDMA（RoCE v2）可在标准以太网网络上运行，但需要支持 PFC（优先级流控）的交换机，以实现无损以太网环境。大多数现代企业级交换机（如 Mellanox/NVIDIA Spectrum、Cisco Nexus、Arista 系列）均支持此功能。QNAP 可为帮助提供网络规划建议，以确认您的现有环境是否兼容。

NFS over RDMA 与传统 NFS over TCP 之间的实际延迟差距有多大？ ▾

在实验室条件下，NFS over TCP 的端到端延迟通常为 100–500 微秒（μs），主要瓶颈来自内核上下文交换机和内存拷贝。NFS over RDMA 可将延迟压缩至 1–2 μs，约提升 100 倍。对于频繁小批量随机读取的 AI 训练场景，这一差距可直接带来 GPU 利用率提升和整体训练周期缩短。

ZFS 的空间效率如何？压缩和去重对 AI 训练集是否有效？ ▾

ZFS 具备内置的实时 LZ4/Zstandard 压缩和块级去重功能。对于包含大量相似样本的图像训练集，压缩比通常可达 1.3–2 倍；而对于基于文本的数据集（如分词语料库），压缩效果更加明显。去重功能尤其适合存储多个模型检查点版本，有望节省大量空间。在 ZFS 中，压缩由硬件辅助完成，对 I/O 性能影响较小。

我们只有 4 块 GPU，TS-h1290FX 值得投资吗？ ▾

4 块高端 GPU（如 H100/A100）的每小时计算成本已经相当可观。即使在小规模集群中，如果存储 I/O 导致 GPU 利用率低于 70%，就意味着超过 30% 的计算投入被浪费。投资 TS-h1290FX 通常能在几个月到一年内收回成本，这主要得益于 GPU 利用率提升带来的性能收益。如需具体 TCO 计算，欢迎联系销售团队。

TS-h1290FX 是否支持多团队同时使用（多租户）？ ▾

支持。TS-h1290FX 可配置多个独立的 NFS 共享、单独的用户账户和网络隔离。结合 ZFS 数据集和快照机制，您可以为每个团队或部门建立独立的存储空间、备份策略和访问控制，适用于托管服务提供商（MSP）或大型企业内部多部门场景。

与纯云端 AI 训练平台相比，本地部署的 TS-h1290FX 有哪些优势？ ▼

云平台的主要挑战包括高昂的数据传输费用（出口成本）、敏感训练数据的合规风险，以及长期计算成本难以预测。TS-h1290FX 提供高速本地存储，确保数据始终留在本地，并通过 RDMA 匹配高端云端存储的 I/O 性能，实现性能、数据主权和 TCO 的平衡。

TS-h1290FX 能否集成到现有的 MLOps 工作流（如 Kubernetes、Kubeflow）中？ ▼

可以。TS-h1290FX 提供标准的 NFS v4.1 挂载，Kubernetes 可通过 PersistentVolume（PV）直接使用。在支持 RDMA 的 Kubernetes 节点上，配合 RDMA Device Plugin 可轻松实现全速 NFS over RDMA 连接。此外，通过 QuObjects 提供的 S3 兼容端点，可无缝集成到使用 S3 协议的 MLOps 工具链（如 MLflow artifact store 或 DVC remote 存储）中。

我们如何对模型检查点进行备份和灾难恢复？ ▼

TS-h1290FX 提供多层保护策略：ZFS 快照可按计划每小时自动运行，提供细粒度的还原点；配合另一台 ZFS NAS，SnapSync 可实现异地实时块级同步用于灾备；长期归档方面，Hybrid Backup Sync（HBS 3）支持将数据备份到云端（AWS S3、Azure Blob、B2 等）。这三重保护可根据您的 RTO/RPO 需求灵活配置。

TS-h1290FX 是否支持 S3 对象存储协议？ ▾

支持。安装 QuObjects 后，TS-h1290FX 可作为本地 S3 兼容对象存储端点，支持对象锁定（WORM）不可变存储。这使 AI 混合工作流程成为可能：在训练阶段通过 RDMA 的 NFS 实现高速数据集读取，在推理阶段通过 S3 协议实现模型版本和分析结果的安全存储与管理。

您的 GPU 不应
为您的存储等待

您的 GPU 有多少时间
在等待数据？

TCP 协议栈的隐性成本

内存拷贝的四重成本

GPU 空闲的实际成本

规模越大，瓶颈越明显

两条路径，
结果截然不同

背后的数据
TS-h1290FX

清晰可见差异
一目了然

谁在使用，
以及它解决的问题

AI / LLM 模型训练

智能医疗影像 AI

半导体良率大数据分析

你可能想问的，
都在这里

消除 GPU 等待时间

您的 GPU 不应为您的存储等待

您的 GPU 有多少时间在等待数据？

TCP 协议栈的隐性成本

内存拷贝的四重成本

GPU 空闲的实际成本

规模越大，瓶颈越明显

两条路径，结果截然不同

背后的数据TS-h1290FX

清晰可见差异一目了然

谁在使用，以及它解决的问题

AI / LLM 模型训练

智能医疗影像 AI

半导体良率大数据分析

你可能想问的，都在这里

消除 GPU 等待时间

您的 GPU 不应
为您的存储等待

您的 GPU 有多少时间
在等待数据？

两条路径，
结果截然不同

背后的数据
TS-h1290FX

清晰可见差异
一目了然

谁在使用，
以及它解决的问题

你可能想问的，
都在这里