AI 熱浪來襲,液冷勢在必行
在 AI 算力狂飆的今天,數據中心正面臨前所未有的“熱力挑戰”。傳統風冷已力不從心,而直接芯片液冷(Direct-to-Chip Cooling,D2C)正成為下一代 AI 數據中心的“冷靜”之選。瑞技全球系統與制冷方案售前工程經理 Curtis Breville 將在本文深入剖析 D2C 直接芯片液冷的技術原理、優勢、部署方式、現實挑戰,與其在 AI 數據中心的未來前景。
原文作者:
Curtis Breville 是瑞技全球系統與制冷方案售前工程經理,在 IT 行業擁有超過 34 年的從業經驗,并在數據中心基礎設施領域深耕超過25年。他在液冷、數據存儲、系統集成,以及 AI 就緒環境建設等方面積累了深厚的專業知識,曾先后在 CoolIT Systems、AHEAD 和戴爾等全球知名企業擔任領導職務,致力于推動高性能計算(HPC)和 AI 工作負載的先進制冷解決方案。Curtis 對直接芯片液冷(Direct-to-Chip Cooling)和下一代熱管理技術的深刻理解,使他成為數據中心效率與可持續發展領域備受推崇的權威專家。
液冷需求日益增長
AI 數據中心的硬件性能正以驚人速度提升,散熱問題已成為行業發展的瓶頸。以英偉達 Blackwell GB200為例,這款由雙 Blackwell B200 GPU 和 Arm Grace CPU 組成的處理器,在 1750 億參數的 GPT-3 基準測試中,性能是 H100 的 7 倍,訓練速度提升 4 倍。然而,性能躍升的同時,其散熱需求也水漲船高——GB200 NVL72 機柜功率高達 120kW,遠超傳統風冷應對極限。
數據中心制冷技術必須不斷發展,才能滿足其所支持的 IT 系統日益增長的需求。過去,風冷系統通過優化冷源位置,和密封冷熱通道的方案,來適應更高的熱密度散熱需求。但是,當機架密度超過 20kW 時,傳統方法的收益逐漸減少。像廣受 AI 數據中心青睞的英偉達 NVIDIA Blackwell GB200 這樣的高性能芯片,它們產生的熱量使傳統風冷技術無法提供足夠的散熱支持。液冷技術,已從“可選升級”變為“生存剛需”,直接芯片(D2C,direct-to-chip)單相液冷技術也成為高性能 AI 數據中心的首選解決方案。
直接芯片液冷的工作原理——精準散熱的“冷靜哲學”
直接芯片液冷(D2C, direct-to chip),也就是芯片冷板液冷,其核心在于將冷板直接安裝在發熱組件(如 CPU,GPU,內存模塊)上,通過單相冷板或兩相冷板來吸收并帶走芯片的熱量。專用冷卻液在冷板內高速循環,精準吸收熱量,隨后流入冷卻劑分配單元 CDU 進行散熱,再循環利用。而 CDU 主要分為兩大類型:
液-氣 CDU(L2A,liquid to air CDU):通過風扇將冷卻液降溫后循環使用,適用于缺乏水冷基礎設施的數據中心。?
液-液 CDU(L2L,liquid to liquid CDU):利用數據中心現有的冷卻水進行散熱,效率更高,但需要對傳統數據中心進行適應性改造。?
?
單相液冷和兩相液冷的一個關鍵區別在于是否會產生相變,單相液冷的冷卻液始終保持液態,而兩相液冷的冷卻液會汽化再凝結成液體。雖然兩相液卻效率更高,但其成本和復雜度較高,因此目前大多數 AI 數據中心選擇?D2C 單相直接芯片液冷技術。
CDU 的規模與部署方式——“量體裁衣”的散熱方案
數據中心可根據工作負載的強度、場地布局和現有制冷基礎設施,選擇不同尺寸和部署方式的 CDU,主要類型包括:
- 機架式 CDU:通常是一個 4U 大小的緊湊型單元,部署在服務器機架內,通過歧管系統為機架內所有服務器分配冷卻液散熱。
- 行式 CDU:安裝在機架行末或行中,通過二次流體網絡(SFN)為多個機架散熱。
- 設施式 CDU:大型數據中心制冷解決方案,部署在獨立的機房中,支持多兆瓦級散熱。需要強大的 SFN 設計來有效分配冷卻液。
- 后門熱交換器(RDHx):掛載在服務器機架的后門,使用冷卻水或特制的冷卻液吸收機架排出的熱空氣,達到局部散熱效果。
D2C 直接芯片液冷優勢——更快,更省,更綠
AI 負載比傳統數據中心服務器要求更高的功率密度,因此制冷效率是一個重要因素。直接芯片液冷相比傳統風冷和浸沒液冷方案,具有以下幾個明顯優勢:
- 高效散熱:通過直接將熱量從處理器傳遞給冷卻液,顯著降低熱阻,提高冷卻效率。
- 節能降耗:傳統風冷系統需要大量的風扇和散熱器來保持最佳溫度,而 D2C 液冷能顯著降低能耗,從而節省長期的運營成本。
- 靈活擴展:通過模塊化的 CDU 設計,數據中心可以在不大規模改造設施的情況下,逐步升級制冷基礎設施。
- 節約用水:與傳統的蒸發制冷不同,D2C液冷系統采用閉環冷卻液循環,最大限度地減少用水量,更加綠色環保。
液冷普及的挑戰與未來趨勢
盡管液冷前景光明,但它的推廣仍面臨一些挑戰:
- 老舊設施改造:為風冷設計的老舊數據中心,需要進行基礎設施升級,才能支持 L2L 液冷,初期成本較高。
- 冷卻液選擇:需要選擇兼顧熱導性、耐腐蝕性和耐久性的理想冷卻液。
- 標準化難題:雖然行業內有推動液冷標準的聲音,但 CDU 型號、管路設計和冷卻液配方的差異仍然帶來兼容挑戰。
AI 數據中心液冷的未來
隨著 AI 工作負載越來越密集,耗電量越來越大,液冷技術也會不斷進步。行業正朝著混合制冷解決方案轉型,將 D2C 直接芯片液冷與后門熱交換器結合,來實現最大化制冷效率。同時,如果數據中心能有足夠水源,L2L CDUs(液-液單相制冷單元)也會更受歡迎,進一步提升性能和可持續性。
瑞技:您的“冷靜智囊”——助力 AI 數據中心高效運行
直接芯片液冷已成為 AI 數據中心的首選解決方案,它能提供卓越的效率、可擴展性和長期成本效益。隨著處理器性能不斷提升,散熱需求日益增長,數據中心必須采用創新型制冷技術來保持高性能與可持續發展。深入了解 D2C 直接芯片液冷技術及其部署策略,對于在現代 AI 基礎設施種做出明智決策至關重要。
瑞技(ByteBridge)專注于為客戶提供量身定制的高效制冷解決方案,精準滿足您的獨特需求。我們在液冷領域,尤其是 D2C 直接芯片液冷解決方案,擁有深厚的專業知識,能夠助力客戶設計并實施優化、高效且節能的系統,幫助數據中心實現無縫擴展并充分釋放其潛能。選擇瑞技,您將擁有一個值得信賴的合作伙伴,與您攜手應對 AI 數據中心的制冷挑戰,共同打造面向未來的 AI 就緒數據中心,為 AI 工作負載提供堅實支持。
