輝達改寫機殼廠遊戲規則 一文看懂AI伺服器機櫃電源、散熱設計有何不同?
【記者李宜儒/台北報導】AI伺服器崛起,不僅帶動散熱需求,也讓機殼廠出現考驗,法人表示,NVIDIA(輝達)GB200伺服器機櫃的規格,跟傳統伺服器以及OCP伺服器都有差異,而且散熱也是從氣冷改為水冷散熱,等於是一種全新規格,也改寫機殼廠原本的遊戲規則,也讓機殼廠都有競逐市場的機會。
EIA機櫃以氣冷為主要散熱模式
法人指出,早期EIA(美國電子工業聯盟)的機櫃,一個機架單位實際上為高度1.75英寸(4.445公分),寬度為主流的19英寸(48.26公分)及較少用的23英寸(58.42公分),這種機櫃是沒有水冷設計,基本上它就是就只放伺服器在裡面,最多可以放置42個機架。
而這種EIA機櫃它的電源供應器給電方式,是機櫃裡面放個排插,把電源供應器接到排插就可以供電,而它的散熱是氣冷。
至於OPC(Open Compute Project,開放運算計劃)的話,因為它想要放更多的伺服器,讓機櫃的運算密度更高,雖然機櫃的外型沒變,但機櫃內部的寬度變大, 所以它增加了伺服器的運算密度,但也讓電源需求增加,因此電源設計改為匯流排。不過跟EIA機櫃不同的是,OPC也增加了水冷散熱的設計。
輝達GB200分兩款 水冷模式略有不同
而輝達的GB200機櫃,它的機架單位的高度跟寬度與EIA機櫃相同,不過可以放置的機架數量,則是增加到47個,但它的電源供應器供電設計,則是跟OPC機櫃類似。
最特別的是GB200機櫃的散熱設計,有水冷對氣冷(Liquid to Air)跟水冷對水冷(Liquid to Liquid),其中Liquid to Air就是兩個機櫃,但一個是放置伺服器,另一個冷卻裝置,當水進入到伺服器,將熱帶出,再進入Sidecar,也就是放置氣冷散熱設備的機櫃,裡面有大型的散熱鰭片,冷卻後的水再進入伺服器。
而Sidecar下面有一個CDU(Cooling Distribution Units,冷卻液分配裝置),機櫃裡面就會有分歧管(Manifold)、快接頭、水冷板(Cold Plate)等,經過水冷板把熱帶走,將熱帶到Sidecar去做降熱的動作,原理跟汽車的散熱一樣。
而Liquid to Liquid主要是用在GB200 NVL 72,因為它的伺服器數量更多,因此要透過冷卻塔散熱,而在機櫃與冷卻塔中間設有冷卻液分配裝置(Cooling Distribution Units,CDU),讓冷水進入到伺服器,帶走熱。
INTEL、AMD機櫃怎設計 為後續觀察重點
法人表示,也因為機殼設計變複雜,需要整合到散熱需求,因此也考驗機殼廠對於大型機構件的組裝能力,以及跟散熱廠的技術整合溝通,包括需要大型的潔淨室等等。現在目前的主要AI晶片供應商還是輝達,接下來還有INTEL(英特爾)及AMD(超微)也會陸續有AI晶片,這場AI伺服器機殼大戰才剛開始。