一、技術問題 1、問: 目前產業對IDC能效指標評價的具體細節? (PUE\TUE等),目前產業實際以什么指標作為標準? 答:目前都是以PUE為標準,國家東數西算8大節點要求的PUE,北方1.2,南方1.25,八大算力節點之外是新建數據中心PUE不高于1.3,這是國家剛性的能效指標。各地區會有差異化內容,比如北京要求PUE1.15以下,然后還要求CUE(碳排放指標)5年內實現100%碳中和,可再生供電量不低于20%等。一些資源緊缺的地方還有類似WUE(水資源消耗)要求,主旨是減少水資源浪費。 針對PUE,一般服務器的功耗都是屬于IT功耗,也就是說服務器的風扇等也是屬于計算消耗。機柜的功耗則屬于非IT的功耗。 2、問: 從風冷->冷板液冷->浸沒液冷(非相變)->浸沒液冷(相變),相應能實現的PUE是多少? 在什么樣的情況下需要用到更高級的冷卻方式,如何判斷這個分界點? 答:首先,無法從芯片本身的功耗來判斷使用什么制冷方式,主要還是考慮功率密度問題 (既最大散熱設計值與空間占據的相對值),比如,即使芯片功率很高700w,但服務器做的足夠大(8u、10u)也可以用風冷散熱,不一定需要液冷。液冷一定是在很小的空間放更多的芯片,才需要液冷。所以超算領域是小面積內附著大量并行計算的CPU,那就需要浸沒式液冷、甚至相變的。 針對智算,這是一個綜合考量,其中最重要的是集群很大之后,其中光釬線纜的成本隨著占地面積擴大也會增加,綜合下來可能需要再更小的空間內堆疊更多GPU服務器,那單柜功率密度就會大幅增加,進而需要液冷。 一般40kw 的機柜,熱密度就盡量需要冷板式液冷,極限可達120kw/機柜。在往上,比如超過150kw,就需要其他方式了,比如浸沒式液冷。 二、產業趨勢與評判依據 3、問: 您提到綜合考量,這里面的經濟賬具體是怎么算的? 客戶選擇什么方案的核心決策依據是什么? 可以拆解回答。 1)、上述幾種冷卻方式的價值量是怎樣的?(機柜每千瓦散熱成本? 服務器價值量占比? )2)、每當需要使用更高級 成本更高的冷卻方式時,是因為哪塊的成本急劇提升或者是物理上低級別方案無法保障服務器正常運行? 3)、是否會出現理論上需要更高級別的方案,芯片廠出了高級別的方案,但客戶出于成本考慮選擇低級別方案也行的情況,為何? 答:首先,核心是考慮功率密度,過高了就需要更好的制冷方式來解決散熱問題,以保障IT設備運行。通用服務器領域,IDC的基建投資占比15%,其中液冷大概7.5%。而GPU里面液冷降低到5%。單kw散熱成本方面(國內市場): 風冷:2000元/kw 冷板液冷:3000-3500元/kw是服務器之外的,然后服務器本身每個芯片需要冷板,這個一般是服務器廠商配好,冷板本身是5000元/kw。浸沒液冷-非相變: 原本得8000-10000元/kw,主要是冷卻液貴,現在找到了一些氟化物替代,更便宜,大概6-7k元/kw。浸沒液冷-相變: 在非相變基礎上還要增加50%-100%的成本投入,主要是應用在國家超算里,不考慮經濟性,只是解決問題。在單機柜120kw這個水平上,冷板液冷的產業鏈是最成熟的,符合大規模生產標準,可擴縮寫解釋: CDU:Cooling Distribution Units冷卻分配單元PUE:Power Usage Effectiveness能源使用效率展性更強,能快速部署。 關于冷板液冷vs浸沒式液冷,最大的區別是散熱均勻性問題。冷板液冷是直接針對芯片進行散熱,這就很符合智算的熱密度分布,主要發熱的就是芯片,能精準散熱。如果使用浸沒的話,芯片以及服務器其他部件全部泡在一起,散熱是均勻地/發熱是不均勻的會導致其他服務器部件損壞。 至于如果單機柜功率150kw以上,單相式冷板就無法支撐了,2個出路:1.相變式冷板,可以支撐150-200kw,但現在有些技術難點需要攻破。2.單相冷板 浸沒融合方案,芯片是直接接觸冷板進行單相冷板式散熱 其他部分浸沒液冷,這樣沒有風扇、減少震動,密封性也更好,PUE也更佳。 4、問: 針對英偉達 GB200NVL系列,是怎么選擇制冷方式的? 答:NVL72的額定功率是120kw,采用冷板式液冷方案,一個NVL72的構成是,18個node,每個node里4張GPU 2塊CPU,上面放10個node,下面8個,中間是9個nvlink層。這里面都是用的冷板液冷,冷板直接貼在托盤上,管線引出來,有個硬接頭,接到Manifold上。剩下的部分就用風冷,兩臺nvl72中有個通道,風把熱量帶走。目前這套體系是符合全球的IDC服務器標準機柜標準的,可擴展性高。這塊價值量上,基本8臺nvl72 交換機組成的576( 8*72)卡大機柜,需要2臺cdu(維諦XDU1350),每臺價值在30-50萬美金不等。NVL72內部manifold 機柜 冷板等液冷相關的價值大概是4萬美金。 三、產業鏈情況 5.問:CDU、manifold、循環管道等,價值量分別有多少(單kw口徑) 答:首先國內與海外價格是不一樣的。尤其CDU的價值這塊,海外貴3倍左右,主要是芯片不一樣,供應鏈、競爭度也不一樣。 冷板每kw價值量: CDU:1000-1500元,看方案,是單泵還是雙泵等。 Manifold等:1500-2000元。其中: 快接頭: 300-500元一個,理論上是一個GPU一進一出配2個接頭,但也看方案設計。 外部干冷器或冷塔:500元。 冷卻液:冷板的液體就是水加乙二醇,幾乎不要錢。不需要補液體,封閉體系,一年2%-5%。 浸沒液冷每kw價值量CDU:1000-1500元。 外部干冷器或冷塔:500元。 機柜部分的封裝等:500-800元。 剩下都是浸沒液價值:按噸賣,一噸40萬元左右,一個機柜標準20U,需要900多升(30多萬元)。浸沒補液量會有10-20%補。產業鏈角色國內分3類: IT廠商延伸:類似曙光、浪潮,會自己配套廠家做冷板液冷,曙光數創基本就是曙光體系的,也有做市場化,但因為缺少空調的能力,所以屬于剛起步。相比風冷(空調、機房架設等),這類廠商在液冷時代更容易獲得部分訂單,因為液冷相對來說對服務器的構造要求更高,更緊密耦合。 專業制冷廠商:原先就做機房空調溫控體系的,比如英維克、依米康、佳力圖、申菱環境 這類。優勢是本身做機房制冷,在冷源及空調方面有產品,整體解決方案能力成熟,再往前走一步就可以把冷板業務做起來。這里面相對而言英維克的整體解決方案能力更成熟,優勢更突出。 零部件廠商:細分產品供應商,比如中航光電(快接頭)、匯川技術(驅動器、水泵) 整體來講,國內分幾類市場:海光-華為內部市場:這部分基本是他們各自自有體系解決液冷問題,海光-曙光數創、華為自己設計然后找供應鏈。 運營商市場:開源設計,要解耦的,不能說誰的芯片,機柜、液冷也都聽你的。屬于公平競標,這一塊維諦、英維克、華為、曙光都有機會。 互聯網民用市場:也是公平競爭模式,誰價格便宜就用誰的。 海外的話:維諦跟NV是戰略伙伴關系,共同面向客戶。過去DGX8卡時代,我們是機柜-manifold-cdu-空調等全套去做?,F在因為GB200NVL是直接機柜形式,那以奇宏為代表的這類原冷板等供應商相對而言能在機柜內部比如manifold上面拿到一些訂單,這主要看客戶的意向。外部像CDU、空調等還是維諦為主。 文章來源于雪球。 |
|