深圳市中科世纪科技有限公司
  • 专业无刷直流变频水泵生产制造商
  • 4
    液冷服务器泵够用吗?多地万卡智算中心六月集中投运

    六月刚开头,好几个万卡智算中心扎堆投运,算力规模直接拉到了新台阶。散热压力紧跟着就上来了,液冷服务器泵成了整条散热链路里最受关注的设备。搞数据中心建设的、做运维的最近都在死磕同一个问题:液冷服务器泵够用吗?这个问题不搞明白,后面运维全是坑。

    液冷服务器泵

    液冷服务器泵够不够用,得先搞清楚它在冷板式液冷里到底承担什么角色。万卡集群基本都用冷板式液冷,GPU上面贴着冷板,冷却液在冷板里流过去把热量带走,再回到液冷服务器泵,由液冷服务器泵把冷却液推到换热器那边去。整个循环的动力源就是液冷服务器泵,流量和扬程直接决定冷板能不能把芯片温度压住。万卡集群的功耗密度比以前高出一大截,液冷服务器泵的性能必须跟着往上提,不然冷板式液冷方案根本跑不通。

    液冷服务器泵

    浸没式液冷对液冷服务器泵的要求是另一套逻辑。服务器整个泡在冷却液里,不需要冷板,热量直接通过液体传导带走。但循环系统还是靠液冷服务器泵来驱动,只不过浸没式液冷的管路阻力更大,对液冷服务器泵的扬程要求更高。万卡智算中心投运之后,不同液冷方案对液冷服务器泵的需求差异越来越明显,选型的时候不能一刀切。

    液冷服务器泵

    变频控制能力是判断液冷服务器泵够不够用的关键。万卡集群的GPU负载全天都在剧烈波动,训练任务启动瞬间功耗拉满,空闲时段功耗又掉下来。液冷服务器泵如果定速运转,不管负载高低都满负荷跑,电白白浪费不说,冷却液流量还跟不上负载变化。现在投运的这批智算中心里,液冷服务器泵基本都上了变频驱动,电机转速跟着温度信号自动调,负载高的时候流量顶上去,负载低的时候收下来。液冷服务器泵的变频响应速度,直接决定了它在万卡集群里够不够用。

    液冷服务器泵

    液冷服务器泵一旦出故障,对万卡智算中心的打击是毁灭性的。训练任务一跑就是好几天不停机,液冷服务器泵要是中途趴窝,冷却液循环一断,整排GPU温度几分钟就飙到危险值,训练任务直接中断,损失按小时算都是天价。液冷服务器泵的可靠性不是一个参数,是整套智算中心能不能稳定运行的命根子。轴承寿命够不够长,密封形式抗不抗漏,冷却液兼容性过不过关,这些东西在万卡集群的场景下全是硬约束,一个都不能含糊。

    液冷服务器泵

    选液冷服务器泵的时候有个常见误区,很多人只看流量和扬程,忽略了效率曲线。液冷服务器泵的效率不是一个固定值,是随工况变化的。万卡集群负载波动大,液冷服务器泵大部分时间不在额定工况点运行,如果效率曲线在常用工况区间内掉得很厉害,泵本身耗电就非常可观,整个数据中心的PUE就被拉上去了。液冷服务器泵够不够用,不能光看峰值性能,得看全工况范围内的综合表现。

    液冷服务器泵

    多地万卡智算中心六月集中投运,液冷服务器泵够不够用这个问题已经有了明确的答案。冷板式和浸没式液冷对液冷服务器泵的要求不一样,变频控制能力决定了它能不能跟上万卡集群的负载波动,可靠性决定了它能不能扛住长期不停机运行,效率曲线决定了它会不会拖整个数据中心PUE的后腿。与其等投运之后出了问题再改,不如现在就把液冷服务器泵的能力边界摸清楚,后面再上更大规模的集群,选型才不会踩坑。

    中科世纪-相关产品推荐太阳能水泵,微型直流水泵,蛋白质分离器等定制生产
    • 返回顶部
    • 0755-27811557
    • 微信公众号