Meta訓練大語言模型每3小時故障1次 使用逾1.6萬個輝達H100

財經 科技新知
2024/07/28 16:02
SJ 文章

【編譯于倩若/綜合外電】臉書母公司Meta最近(7/23)發布一項研究,詳細介紹了在包含1萬6384個輝達H100 80GB GPU的叢集上運作的Llama 3 405B大語言模型訓練,訓練運作持續了54天,在此期間叢集遇到419個意外組件故障,平均每3個小時發生1次故障。在一半的故障案例中,是GPU或其板載HBM3記憶體造成。

輝達H100。取自官網 zoomin
輝達H100。取自官網
分享 連結 下載App

超級電腦圈子流傳一句箴言:大規模系統唯一確定的就是失敗。超級電腦是極其複雜的設備,使用數萬個處理器、數十萬個其他晶片和數百英里的電纜。在複雜的超級電腦中,每隔幾小時就出現故障,是很正常的,開發人員的主要技巧是確保系統保持運作,而不管此類局部的故障如何。

據美國科技媒體《tom’s HARDWARE》指出,1萬6384個GPU訓練的規模和同步特性,使其容易發生故障,如果未能正確緩解故障,單一GPU故障可能會中斷整個訓練工作,從而需要重新啟動。然而,Llama 3團隊透過減少作業啟動和檢查點時間,並開發專有的診斷工具,維持了90%以上的有效訓練時間。

在為期54天的預訓練(pre-training)期間,出現了466次工作中斷,其中47次是計劃內的中斷,419次是意外中斷。計劃內的中斷是為了自動化維護,意外的中斷則主要源自於硬體問題。GPU問題是最大的一類,佔意外中斷的58.7%。只有3次意外事件需要大量手動干預,其餘由自動化管理。

419個意外中斷中,148個(30.1%)是由各種GPU故障(包括NVLink故障)引起的,而72個(17.2%)是由HBM3記憶體故障引起的,考慮到輝達H100 GPU功耗約為700W,且承受很大的熱應力(thermal stress),這並不奇怪。有趣的是,54天內只有2個CPU發生故障。

廣告

雖然GPU是最重要組件但也很脆弱,41.3%的意外中斷是由多種因素造成,包括軟體錯誤、網路電纜和網路介面卡。

Llama 3 405B大語言訓練團隊遇到的另一個挑戰是數萬個GPU的功耗同時變化,這給資料中心的電網帶來壓力。這些波動有時達到數萬瓩,超出電網極限,這意味著Meta必須確保其資料中心有足夠電力。

《tom’s HARDWARE》指出,考慮到一個由1萬6384個GPU組成的叢集,在54天內經歷了419次故障,相當於每24小時7.76次,或每3個小時故障1次,讓人好奇馬斯克的xAI,使用10萬個H100 GPU號稱「地表最強AI訓練叢集」,故障頻率會是多少?

知新聞 Line 官方帳號

⭐️ 即刻下載《知新聞》App!免費!

# Meta # AI # 大語言模型 # 輝達 # HBM # GPU # CPU # Llama 3 # 資料中心 # 臉書