輝達Blackwell晶片為何遇到良率問題 一文了解「非常非常大的GPU」生產難度

財經 科技新知
2024/08/31 15:30
CC 文章

【財經中心/台北報導】輝達周四公布財報後,當天股價在美股重挫,儘管周五反彈,但本周股價仍跌近8%,其中Blackwell平台GPU出貨遞延,成為外界關注焦點。

輝達證實Blackwell平台晶片出貨將延後,但仍將對第4季貢獻數十億美元營收,圖為執行長黃仁勳。資料照片/林林攝
輝達證實Blackwell平台晶片出貨將延後,但仍將對第4季貢獻數十億美元營收,圖為執行長黃仁勳。資料照片/林林攝
分享 加入好友

Blackwell產品第4季將貢獻輝達數十億美元營收

輝達表示,Blackwell架構GPU存在良率問題,需要重新變更B200處理器部分設計以提升良率,下一代Blackwell架構GPU量產時間將延後至2024年第4季,但輝達也預估Blackwell產品將在第4季實現數十億美元營收。

雖然輝達並未詳細說明問題的具體原因,但分析師和業界認為,工程挑戰主要源自於Blackwell晶片設計帶來的複雜製造流程問題;分析指出,Blackwell巨型尺寸及複雜設計,任何一個零件缺陷都可能導致晶片報廢,進而影響良品率和獲利。此外,晶片各部分的熱膨脹係數差異也可能導致封裝翹曲,影響性能和可靠性。

為提高良品率,輝達已調整Blackwell設計,但分析師認為,採用台積電新型晶片連接技術的複雜性,以及晶片尺寸帶來的挑戰,仍將是Blackwell量產的主要障礙。

究竟Blackwell晶片設計為何那麼複雜?陸媒報導,為了維持在AI晶片領域的領先地位,輝達宣揚「愈大愈好」的理念,然而,更大的尺寸,在帶來更強性能的同時,也帶來更大的製造難度。

Blackwell的問題是採用台積電CoWoS-L新型封裝過於複雜

輝達最新的Blackwell被執行長黃仁勳形容為「非常非常大的GPU」,在物理意義上,它確實是目前面積最大的GPU,由兩顆Blackwell裸片拼接而成,採用台積電4奈米工藝,擁有2080億晶體管,是前代產品的2.6倍。

瑞銀分析師之前在報告中表示,輝達在Blackwell上遇到的主要問題是採用台積電CoWoS-L新型封裝方式過於複雜。

半導體行業專業媒體semianalysis稱,該封裝技術使用帶有本地矽互連(LSI)橋接的RDL中介層連接晶粒,傳輸速率可達10 TB/s左右,這些橋接的放置精度要求極高,任何一個零件缺陷都可能導致整塊價值4萬美元的晶片報廢,進而影響良品率。

此外,由於GPU晶粒、LSI橋接、RDL中介層和主機板基板之間的熱膨脹係數(CTE)不匹配,導致晶片翹曲和系統故障。據報導,為提升良率,輝達不得不重新設計GPU晶片的頂部金屬層和凸點。

事實上,這種問題並非輝達獨有,業內人士表示,隨著晶片製造商希望透過增加晶片尺寸來提高處理能力,這類問題會愈來愈多。為了改善缺陷或提高良品率而進行晶片設計變更,在業界也很常見。

廣告

開發多晶片組合技術難度呈指數級成長

AMD的執行長蘇姿豐也指出,隨著晶片尺寸不斷增大,製造複雜性將不可避免地上升。下一代晶片需要在能源效率和功耗取得突破,才能滿足AI資料中心對運算能力的巨大需求。

不過,為突破單一晶片的尺寸限制,輝達將兩塊最大尺寸晶片組合,打造出Blackwell的策略也引來競爭對手質疑。Cerebras Systems創辦人Andrew Feldman認為,開發多晶片組合技術的難度將呈指數級成長,Cerebras Systems選擇開發巨型單晶片,並推出基於此的AI雲端運算服務,試圖挑戰輝達的市場地位。

Andrew Feldman表示:「在人工智慧領域進行有意義的工作,需要大量運算能力,這需要大量晶體管,比單一晶片所能容納的還要多…開發出雙晶片技術很難,開發出4晶片技術更難,而開發8晶片技術更是難上加難。 」

至於輝達的巨型晶片戰略最終能否勝出,仍有待市場檢驗,但可以肯定的是,晶片製造的極限挑戰才剛開始。

知新聞 Line 官方帳號

⭐️ 即刻下載《知新聞》App!免費!

下載《知新聞》APP!免費兌換「總裁牛肉麵」美味小菜
# Blackwell # AI晶片 # GPU # 黃仁勳