廣告

懶人包|DeepSeek是「輝達殺手」或被高估了? 4個Q&A快速掌握

財經 產業脈動
2025/01/29 11:44
SJ 文章

【編譯于倩若/綜合外電】中國大陸DeepSeek更便宜、更有效率的AI(人工智慧)模式的前景,在周一震撼了市場和產業,DeepSeek是輝達(Nvidia)殺手還是被高估了?《NIKKEI Asia》整理4大Q&A帶你快速掌握。

分享 連結 下載App
法新社 zoomin
法新社

周一DeepSeek壓垮輝達股價時,讓人想起了2年前美國OpenAI席捲全球的情景。

DeepSeek的聊天機器人在美國iPhone免費應用程式排行榜衝上第1,這導致輝達市值在一夜之間蒸發了近6000億美元打破美股紀錄,投資人擔心在AI相關硬體上投入大量資金的日子可能即將結束。

這款應用程式在中國並不陌生,其低廉的價格為其贏得了「AI拼多多」的綽號。過去1周,全球用戶數量的激增導致DeepSeek伺服器多次中斷,但這並沒有阻止該公司在周一深夜發布其新的開源模型Janus-Pro。與先前的版本相比,最新模型在多模式理解和視覺生成方面都有顯著的改進。

DeepSeek可說一夕之間在全球聲名大噪,《NIKKEI Asia》在28日的報導中整理關於這家公司你需要知道的4件事:

DeepSeek為何引起如此轟動?

過去2年來,對超強大、極其昂貴硬體的需求,推動了AI繁榮和相關股市的上漲。使用性能較弱的硬體實現類似的計算結果,將會削弱投資者買入輝達和其他晶片製造商股票的大部分基礎。

而這正是該公司上周發表的DeepSeek R1機型最讓矽谷和華爾街震驚的地方。這家中國大陸公司表示,它率先採用了低成本的AI方法,這使得其推理服務的價格僅為美國強大競爭對手的一小部分。

推理是指AI模型處理輸入並產生回應的階段,與初始訓練階段相對。R1每百萬輸出代幣的成本為2.19美元,比OpenAI的o1便宜約96%,後者的價格為每百萬輸出代幣60美元。

輝達稱讚DeepSeek的成就是「一項出色的AI進步和測試時間縮放(TTS)的完美範例」,它透過逐步解決難題來提高推理效能。這與提升AI效能的傳統方式形成了鮮明對比,傳統的提升方式是讓模型變得更大或進行更長時間的訓練。

DeepSeek創辦人梁文峰稱,他的公司比許多其他中國新創公司更具創新性和雄心壯志。

去年5月,第2代V2模型的發布,在矽谷引起轟動時,梁文峰對陸媒表示:「他們很驚訝,因為這是一家陸企以創新貢獻者的身份進入這個領域。畢竟,大多數陸企習慣於跟隨,而不是創新。」

他還表示,他的目標是實現通用人工智慧(AGI),這將需要開拓新的模型架構,以在有限的資源下最大限度地提高效能。

廣告

它的低成本方法是什麼?對於它實際上到底有多便宜還有什麼疑問嗎?

目前尚不清楚DeepSeek模型的總訓練成本是多少,但該公司12月發布的一份論文稱,其V3模型的訓練成本為560萬美元。值得注意的是,這不包括與先前研究和實驗相關的成本。

相比之下,OpenAI的GPT-4的訓練成本估計超過1億美元。

論文稱,DeepSeek的數據基於280萬個H800 GPU小時的總使用量,假設租賃費率為每小時2美元,論文還補充說,這一結果是透過「演算法、框架和硬體的優化協同設計」實現的。

該公司還表示,透過使用一種稱為「組相對策略優化」(GRPO)的技術,它降低了強化學習(RL)的訓練成本。傳統的RL方法既需要一個決定行動的策略模型,又需要一個評估這些行動的龐大且昂貴的評論模型。 GRPO可以完全跳過評論模型,只需獲取一組結果(或來自多個操作的分數)並進行比較,從而節省大量金錢和時間。

然而,DeepSeek的極低成本引發了許多質疑。有人指出,H800晶片的頻寬遠低於輝達更先進的H100晶片,而後者被禁止運往中國大陸。其他人則猜測該公司可能使用了蒸餾技術,即使用較大的「老師」模型來訓練較小的「學生」模型,儘管沒有跡象表明DeepSeek已經這樣做了。

戰略與國際研究中心瓦德瓦尼AI中心主任Gregory Allen表示,總訓練成本可能遠高於披露的560萬美元,因為這筆錢只涵蓋了最後一次成功的訓練運行的費用,而不是所有投入其中的研究和實驗。

這對輝達和AI硬體製造商意味著什麼?

DeepSeek令人印象深刻的推理效率引發了人們的擔憂,擔心它可能會擾亂對AI資料中心基礎設施的投資。這讓輝達、Broadcom和Marvell等領先AI晶片開發商的投資者,以及主要晶片製造商台積電、三星、SK 海力士和美光等感到不安。市場觀察家可能不再那麼確信世界需要如此多先進且昂貴的處理器和高頻寬記憶體晶片來運行AI運算。

身為AI晶片市場的領導者,輝達一直試圖淡化人們對晶片和運算能力需求下降的擔憂。

私募股權公司J&J Investment投資長、資深半導體分析師Jonah Cheng在研究報告中表示,DeepSeek的崛起確實可能讓人懷疑「硬體投資是否仍是每個人的首要任務」。

然而,許多市場分析師和AI研究人員認為,雖然高效的演算法很重要,但公司最終仍需要在改善AI基礎設施方面進行大量投資,以實現更強大的成果。他們指出了傑文斯悖論(Jevons paradox),這一經濟理論認為,資源使用效率的提高往往會導致該資源總體消耗量的增加。

戰略與國際研究中心瓦德瓦尼AI中心主任Gregory Allen表示,他認為短期內投資者可能會做出負面反應,但從長遠來看,每個人都會從更有效率的利用中受益,「如果你能用更少的錢實現同樣數量的計算,需求就會上升,這對AI投資的長期影響顯然非常好。」

然而,伯恩斯坦研究公司(Bernstein Research)指出,「最有可能」的情況是,10%至20%計劃用於訓練的資料中心可能會被取消或重新安排,分幾年再建置。然而,從長遠來看,電網投資和電力建設的結構性需求幾乎沒有改變。

DeepSeek的突破是否意味著美國晶片限制的失敗?

創辦人梁文峰先前曾對陸媒表示,公司面臨的問題從來不是錢,而是高階晶片禁令。他創立的避險基金公司High-Flyer早在2019年就開始囤積晶片,並在2022年輝達被禁止向中國運送A100 GPU之前擁有 1萬個A100 GPU。

為了遏制中國大陸的技術進步,美國已對中國先進AI晶片、半導體製造和晶片製造工具實施多輪全面出口管制。

不過,大多數分析師並不認為DeepSeek的突破顯示美國的限制措施失敗。

戰略與國際研究中心瓦德瓦尼AI中心主任Gregory Allen將其比作華為在2023年推出的7奈米晶片,這些晶片基於中國頂級晶片製造商中芯國際在出口管制之前獲得的先進工具。他表示,即使華為找到了生產7奈米晶片的方法,真正的問題在於他們能否將生產規模擴大到具有競爭力的水準,同樣的情況也適用於DeepSeek場景。

Gregory Allen表示「出口管制總是有滯後影響的」,並補充說DeepSeek的發布時機很可能是出於政治原因,「中國想嘗試說服新上任的川普政府改變其出口管制做法。」

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

廣告
知新聞年度報導
# DeepSeek