Investing.com -- 根据TrendForce最新研究,NVIDIA GB200机架式解决方案需要进一步优化和调整其供应链。GB200机架复杂的设计规格,包括高速互连接口和超出市场标准的热设计功耗(TDP)要求,是导致这一需求的主要原因。因此,TrendForce预测,量产和出货高峰可能会在2025年第二季度至第三季度之间出现。
NVIDIA的GB机架系列,包括GB200和GB300型号,以复杂的技术和较高的生产成本为特征。这使其成为大型云服务提供商(CSP)和其他潜在用户(如二线数据中心、国家主权云提供商以及从事高性能计算(HPC)和人工智能(AI)应用的学术研究机构)的首选解决方案。预计GB200 NVL72型号将在2025年最受欢迎,可能占总部署量的80%,因为NVIDIA正在加大市场推广力度。
NVIDIA专有的NVLink技术是该公司提升AI和HPC服务器系统计算性能战略的核心。这项技术允许GPU芯片之间进行高速连接。GB200使用第五代NVLink,提供的总带宽显著超过当前行业标准PCIe 5.0。
2024年主导市场的HGX AI服务器的TDP通常在每机架60 kW到80 kW之间。然而,GB200 NVL72的TDP达到每机架140 kW,使功率需求翻倍。这促使制造商加快采用液冷解决方案,因为传统的风冷方法无法处理如此高的热负载。
GB200的先进设计要求引发了对组件供应和系统出货可能延迟的担忧。TrendForce表示,Blackwell GPU芯片的生产大体按计划进行,预计2024年第四季度只有有限的出货量。从2025年第一季度开始,产量预计将逐步增加。然而,由于AI服务器系统组件的供应链仍在持续调整,2024年底的出货量预计将低于行业预期。因此,TrendForce预测GB200全机架系统的出货高峰期将推迟到2025年第二季度至第三季度之间。
GB200 NVL72的140 kW TDP使液冷成为必需,因为它超出了传统风冷解决方案的能力。液冷组件的采用正在加速,行业领先企业正大力投资液冷技术的研发。
值得注意的是,冷却液分配单元(CDU)供应商正努力通过增加机架尺寸和开发更高效的冷板设计来提高冷却效率。目前的侧边CDU可以散热60 kW到80 kW,但未来的设计预计将使这一冷却能力翻倍甚至增加三倍。液对液行内CDU系统的开发使冷却性能超过1.3 mW,随着计算能力需求的持续增长,预计还会有进一步的改进。
本文由人工智能协助翻译。更多信息,请参见我们的使用条款。