廣告

快訊 KNEWS

⚡

靖音專案！新北警取締改管車　5個月通報1萬5294件裁罰

炸署片｜太歲頭上動土！交通部門前放鞭炮　警掌握一女循線追查

動手片｜藍粉水灑穢嗆四叉貓！中正一分局出手了　送辦動手兩男

衝撞片｜重機遮牌闖國道還傷警　莽男騎士收4罰單遭移送法辦！

攔逮片｜兩車交會誰也不讓！新北男火大了　亮「槍」恐嚇下場慘了

追火車10周年！2025新北鐵道馬拉松接力賽開跑 1100隊7700人同場較勁

Meta訓練大語言模型每3小時故障1次　使用逾1.6萬個輝達H100

財經科技新知

2024/07/28 16:02

✎ SJ 文章

【編譯于倩若／綜合外電】臉書母公司Meta最近（7/23）發布一項研究，詳細介紹了在包含1萬6384個輝達H100 80GB GPU的叢集上運作的Llama 3 405B大語言模型訓練，訓練運作持續了54天，在此期間叢集遇到419個意外組件故障，平均每3個小時發生1次故障。在一半的故障案例中，是GPU或其板載HBM3記憶體造成。

輝達H100。取自官網

zoomin — 輝達H100。取自官網

超級電腦圈子流傳一句箴言：大規模系統唯一確定的就是失敗。超級電腦是極其複雜的設備，使用數萬個處理器、數十萬個其他晶片和數百英里的電纜。在複雜的超級電腦中，每隔幾小時就出現故障，是很正常的，開發人員的主要技巧是確保系統保持運作，而不管此類局部的故障如何。

據美國科技媒體《tom’s HARDWARE》指出，1萬6384個GPU訓練的規模和同步特性，使其容易發生故障，如果未能正確緩解故障，單一GPU故障可能會中斷整個訓練工作，從而需要重新啟動。然而，Llama 3團隊透過減少作業啟動和檢查點時間，並開發專有的診斷工具，維持了90%以上的有效訓練時間。

在為期54天的預訓練（pre-training）期間，出現了466次工作中斷，其中47次是計劃內的中斷，419次是意外中斷。計劃內的中斷是為了自動化維護，意外的中斷則主要源自於硬體問題。GPU問題是最大的一類，佔意外中斷的58.7%。只有3次意外事件需要大量手動干預，其餘由自動化管理。

在419個意外中斷中，148個（30.1%）是由各種GPU故障（包括NVLink故障）引起的，而72個（17.2%）是由HBM3記憶體故障引起的，考慮到輝達H100 GPU功耗約為700W，且承受很大的熱應力（thermal stress），這並不奇怪。有趣的是，54天內只有2個CPU發生故障。

雖然GPU是最重要組件但也很脆弱，41.3%的意外中斷是由多種因素造成，包括軟體錯誤、網路電纜和網路介面卡。

Llama 3 405B大語言訓練團隊遇到的另一個挑戰是數萬個GPU的功耗同時變化，這給資料中心的電網帶來壓力。這些波動有時達到數萬瓩，超出電網極限，這意味著Meta必須確保其資料中心有足夠電力。

《tom’s HARDWARE》指出，考慮到一個由1萬6384個GPU組成的叢集，在54天內經歷了419次故障，相當於每24小時7.76次，或每3個小時故障1次，讓人好奇馬斯克的xAI，使用10萬個H100 GPU號稱「地表最強AI訓練叢集」，故障頻率會是多少？

下載知新聞APP

⭐️ 即刻下載《知新聞》App！免費！

# Meta # AI # 大語言模型 # 輝達 # HBM # GPU # CPU # Llama 3 # 資料中心 # 臉書

知更多

《WSJ》：AI催生「全天候經濟」　企業需競速求變求勝

《WSJ》：AI催生「全天候經濟」　企業需競速求變求勝

輝達5090D顯卡傳停供中國大陸　法人：台廠影響有限

輝達5090D顯卡傳停供中國大陸　法人：台廠影響有限

分析｜美國禁輝達H20出口中國大陸　專家：恐影響部分台灣供應鏈

分析｜美國禁輝達H20出口中國大陸　專家：恐影響部分台灣供應鏈

ChatGPT直呼用戶姓名引發反感　用戶覺得「令人毛骨悚然」

ChatGPT直呼用戶姓名引發反感　用戶覺得「令人毛骨悚然」

外媒爆遭華為掛名中芯7奈米AI晶片　台積電指2020年9月就已斷供

外媒爆遭華為掛名中芯7奈米AI晶片　台積電指2020年9月就已斷供

輝達AI晶片限銷中國大陸黃仁勳下秒訪北京　川普回應：安啦！

輝達AI晶片限銷中國大陸黃仁勳下秒訪北京　川普回應：安啦！

台積電釋關稅及英特爾合作疑慮市場吃定心丸？　一文看懂12大法說重點

台積電釋關稅及英特爾合作疑慮市場吃定心丸？　一文看懂12大法說重點

輝達H20出口中國受管制！　外媒指美國要透過晶片禁令扼殺大陸發展AI野心

輝達H20出口中國受管制！　外媒指美國要透過晶片禁令扼殺大陸發展AI野心