Hot Chips 2024登場　 NVIDIA展最新液冷及下一代AI技術

財經科技新知

2024/08/26 15:28

【記者蕭文康／台北報導】在本週美國史丹佛大學舉行的Hot Chips 2024大會中，NVIDIA資深工程師將出席介紹支援NVIDIA Blackwell平台發展的最新進展，以及資料中心液冷技術與用於晶片設計的AI代理的研究成果。NVIDIA指出，在大會中將分享NVIDIA Blackwell平台如何整合多種晶片、系統與NVIDIA CUDA軟體，以驅動橫跨各項使用案例、產業和國家的下一代AI。

NVIDIA Hot Chi ps 大會展示可提升資料中心效能與能源效率的創新技術。公司提供

zoomin — NVIDIA Hot Chi ps 大會展示可提升資料中心效能與能源效率的創新技術。公司提供

準備好迎接 Blackwell 架構

其中，NVIDIA GB200 NVL72這個連接72個Blackwell GPU和36個Grace CPU多節點、液冷、機架規模的解決方案，如何提升了AI系統設計的標準；NVLink互連技術提供GPU完全通訊，如何為生成式AI實現創紀錄的高輸送量與低延遲推理；NVIDIA Quasar Quantization系統如何突破物理極限，加速AI運算； NVIDIA研究人員如何正在建立AI模型，幫助建造AI處理器。

NVIDIA Blackwell 是全堆疊運算的終極挑戰。它由多種 NVIDIA 晶片組成，包括 Blackwell GPU、GraceCPU、BlueField 資料處理單元、ConnectX 網路介面卡、NVLink Switch、Spectrum 乙太網路交換器和Quantum InfiniBand 交換器。

NVIDIA架構總監Ajay Tirumala與Raymond Wong將率先介紹Blackwell平台，並且解釋這些技術如何相互配合，在提高能源效率之際，又寫下AI與加速運算效能的全新標準。NVIDIA GB200 NVL72解決方案就是完美的例子。LLM推論作業需要低延遲、高輸送量的詞元產出。GB200 NVL72可以統掌全局，將LLM 工作負載的推論速度提高30倍，能夠即時執行有著上兆個參數的模型。Tirumala與Wong還將討論NVIDIA Quasar Quantization系統如何支援讓低精準度模型達到高精確度，並且重點介紹使用LLM與視覺生成式AI的範例。這個系統結合演算法創新、NVIDIA軟體庫與工具，以及Blackwell第二代 Transformer引擎。

液冷技術保持資料中心低溫

隨著研究人員開發出結合氣冷與液冷的混合式冷卻技術，以更有效率且更符合永續精神的方式解決資料中心過去面臨的冷卻問題，以前使用氣冷式技術所發出的嗡嗡聲或許會從此消失。

液冷技術比氣冷技術可以更有效率地將熱度從系統中帶走，使得運算系統在處理大量工作負載時同樣能保持低溫。而與氣冷系統相比，液冷設備佔用的空間更小，用電量也更少，這麼一來資料中心便能加入更多伺服器機架，以提高運算能力。

NVIDIA 資料中心冷卻與基礎設施部門總監 Ali Heydari 將介紹數種設計採用混合式冷卻技術資料中心的方式。部分設計是將現有的氣冷式資料中心改為使用液冷式裝置，以簡單方便的方式為現有機架加入液冷功能。其他設計則需要安裝管道，以便使用冷卻液分配裝置或將伺服器完全浸入冷卻槽，以液冷方式直接冷卻晶片。這些選項雖然一開始要投入較大金額，卻能大幅節省能源消耗量和營運成本。

Heydari 還將分享他的團隊在進行美國能源部開發先進資料中心冷卻技術 COOLERCHIPS 計畫的部分研究成果。該團隊在這項計畫中使用 NVIDIA Omniverse 平台來建立有著物理根據的數位孿生模型，這將有助於他們模擬能源消耗情況和冷卻效率，以設計出最佳的資料中心。

AI代理支援設計處理器

在極小的方寸之間要設計半導體，可謂一項艱鉅難題。開發尖端處理器的工程師要在幾英吋寬的晶片上盡量塞入最大的運算能力，簡直就是在測試物理上可能達到的極限。AI 模型可以提高設計品質和生產力，提高人工作業流程的效率，自動執行一些耗時的工作，以支援工程師的工作。這些模型包括協助工程師快速分析和改善設計的預測和最佳化工具，以及可以協助工程師回答問題、產生程式碼、執行設計除錯等作業的 LLM。NVIDIA 設計自動化研究部門總監 Mark Ren 將在教學活動中簡單介紹這些模型及其用途。

而他在第二場活動中，將重點介紹如何使用以代理為基礎的 AI 系統來協助設計晶片。LLM驅動的 AI 代理能接受指導後自主完成任務，這樣就能在各行各業中創造出更多的應用方式。NVIDIA 研究人員正在開發以代理為基礎的系統來協助設計微處理器，這些系統能夠使用自訂的電路設計工具進行推論並採取行動、與經驗豐富的設計人員互動，並且從人類與代理的經驗資料庫中學習。

NVIDIA 的專家們不只是開發，自己也使用這項技術。Ren 將分享工程師如何使用 AI 代理進行時序報告分析、單元叢集最佳化（cell cluster optimization）流程和產生程式碼的範例。單元叢集最佳化的研究成果日前在第一屆 IEEE LLM 輔助設計國際研討會（IEEE International Workshop on LLM-Aided Design）中獲得最佳論文獎。