您的 GPU 可能正在浪费时间等待数据
虽然 AI 训练成本取决于 GPU 运行时间,但存储 I/O 瓶颈可能会浪费超过 40% 的运算时间。
1. TCP 堆栈的隐藏成本
每次读取数据时,CPU 都需要处理 TCP 包和上下文切换。这些操作对 AI 运算毫无贡献,却暗中消耗高达 99% 的 CPU 资源。
2. 4–6 次无效内存复制
在传统 NFS 下,数据在内核与用户空间之间需要复制 4–6 次才能到达 GPU,每增加 1 微秒延迟都会影响算力。
3. GPU 闲置时间造成的实际损失
例如,在 8×H100 集群下,云端成本每小时超过 US$24。如果 GPU 使用率因等待数据降至 60%,约 US$10 每小时将浪费。