黃仁勳稱「Blackwell可能是電腦史上最成功產品」  一文看懂7大厲害點

財經 科技新知
2024/06/27 17:45
克里夫 文章

【記者蕭文康/台北報導】NVIDIA(輝達)周三舉行股東會,執行長黃仁勳針對旗下AI產品對股東說:「輝達Blackwell架構平台是輝達史上最成功產品。」他補充說,它也可能是電腦史上最成功產品。究竟今年3月才推出的Blackwell系統,有多厲害?《知新聞》整理一文看懂Blackwell系統的7大特點。

圖為輝達執行長黃仁勳。林林攝
圖為輝達執行長黃仁勳。林林攝
分享 加入好友

Blackwell採一年一節奏,明年會有Blackwell Ultra

黃仁勳周三在股東會上強調,Blackwell將被所有主要雲端服務供應商、伺服器製造商和領先的AI公司採用,包括亞馬遜、Google、Meta 、微軟、ChatGPT製造商OpenAI、特斯拉和馬斯克的xAI。分析師則稱是「矽谷最雄心勃勃的計劃」。

黃仁勳在本月4日來台演講中指出,Blackwell採台積電4奈米製程,是有史以來功能最強大的,把兩個GPU裸晶串連一起,速度高達10TB,是史上最強。他驚歎運算速度8年內已增加1000倍,且成本不斷下降,而摩爾定律每8年才成長40倍。

他表示,Blackwell是第一代的平台,將一年一節奏,要建立整個資料中心彙整,再分拆給大家去設計,不管台積電製程會如何推展到極致,光學可以怎麼發展,NVIDIA就會利用,黃仁勳並透露,明年會再推出下一代的產品Blackwell Ultra。

根據NVIDIA官方介紹,NVIDIA Blackwell有以下7大特點:

1.打破加速運算和生成式AI面臨的阻礙

NVIDIA Blackwell 架構為生成式人工智慧和加速運算帶來的突破性進展,Blackwell立基於數代 NVIDIA 技術,能以絕佳的效能、效率和規模,為生成式人工智慧開創全新篇章。

2.下一代AI超級晶片

Blackwell處理器包含 2080 億個電晶體,並採用專為 NVIDIA 量身打造的台積電 4NP 製程製造。所有 Blackwell 產品都配備兩個具有光罩限制的晶粒,透過每秒 10 TB (TB/秒) 的晶片對晶片互連技術,在一個顯示卡超級晶片中,提供兩個顯示卡晶片的功能。

3. 第二代 Transformer Engine

第二代 Transformer Engine 使用自訂的 Blackwell Tensor 核心 技術,結合 NVIDIA® TensorRT™-LLM 和 NeMo™ 框架創新技術,加速大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論和訓練。

為了大幅提升大型 MoE 模型的推論速度, Blackwell Tensor核心增加新的精度,包含社群定義的微縮放格式,可提供更高的準確度,且更易於替換,獲得更高的精度。Blackwell Transformer Engine利用稱為微張量縮放的精細縮放技術來優化效能和精確度,從而實現 4 位元浮點 (FP4) AI。這使記憶體可以支援的下一代模型的效能和大小加倍,同時保持高準確性。

4.安全的AI

Blackwell 包含 NVIDIA 機密運算,能以強大的硬體安全防護來保護敏感資料和人工智慧模型,避免遭未經授權者存取。Blackwell 是業界第一款支援 TEE-I/O 的 GPU,同時透過 NVIDIA® NVLink® 支援 TEE-I/O 的主機和內嵌保護措施,提供最高效能的機密運算解決方案。Blackwell 機密運算的輸送量效能幾乎與加密模式並駕齊驅。企業現在除了能高效保護最大規模的模型,還能保護人工智慧的智慧財產 (IP),並安全進行機密人工智慧訓練、推論和聯合學習。

5.NVLink 和 NVLink Switch

若要充分發揮百萬兆級運算和兆級參數人工智慧模型的潛能,伺服器叢集內的每個 GPU 都必須達到快速、流暢的通訊。第五代 NVIDIA® NVLink® 互連技術可擴充多達 576 個 GPU,進而釋放一兆到數兆等級參數的人工智慧模型的加速效能。

NVIDIA NVLink Switch Chip 可在單一的 72-GPU NVLink 網域 (NVL72) 中,提供每秒 130 TB 的顯示卡頻寬,並可透過 NVIDIA 可擴充的分層彙總和精簡通訊協定 (SHARP)™ FP8 支援,提供 4 倍的頻寬效率。NVIDIA NVLink Switch Chip 能以每秒 1.8 TB 的驚人互連速度,支援單一伺服器以外的叢集。為了平衡增加的運算能力,具備 NVLink 的多伺服器叢集可擴充顯示卡通訊,因此與單一的八顯示卡系統相比,NVL72 可帶來 9 倍的顯示卡輸送量。

6.解壓縮引擎

資料分析和資料庫工作流程傳統上皆仰賴 CPU 進行運算。加速資料科學可大幅提升端對端分析的效能,加速創造價值,同時降低成本。包括 Apache Spark 在內的資料庫,在處理和分析大量數據以進行資料分析時扮演著關鍵角色。

Blackwell 配備解壓縮引擎,且可透過高速連結使用 NVIDIA Grace™ CPU 的大量記憶體,運用每秒 900 GB 的雙向頻寬。並且支援最新的壓縮格式 (如 LZ4、Snappy 和 Deflate),加速處理資料庫的完整查詢流程,實現資料分析與資料科學的最高效能。

7.可靠性、可用性、可維護性 (RAS) 引擎

Blackwell 透過專用的可靠性、可用性和可維護性 (RAS) 引擎,可增加智慧復原能力,及早辨認出可能發生的潛在故障,盡可能縮短停機時間。NVIDIA 具備人工智慧預測管理功能,可持續監控硬體和軟體上的數千個資料點,掌握整體健康狀況,進而預測停機時間和效率低下的原因,並預先阻止其發生作用。如此可培養智慧型的韌性,進而節省時間、能源和運算成本。

NVIDIA 的 RAS Engine 提供深入的診斷資訊,可找出須顧慮的區域並制定維護計畫。RAS 引擎可快速定位問題來源,藉此縮短周轉時間,並推動有效的補救措施,盡可能減少停機時間。

知新聞 Line 官方帳號

# Blackwell # 黃仁勳 # NVIDIA # 台積電4奈米