一文整理|中國大陸DeepSeek是什麼? 為何震撼科技界?
【編譯黃惠瑜/綜合外電】中國大陸人工智慧(AI)新創公司DeepSeek近日推出AI模型,聲稱以低成本達到媲美OpenAI聊天機器人ChatGPT的效能,震撼投資人,美股週一(1/27)開盤,科技股幾乎全數暴跌,全球500大億萬富翁的財富瞬間縮水約3.5兆元台幣。究竟DeepSeek有何本領,能撼動美股?與OpenAI差異有多大?以下《知新聞》為讀者綜合整理。
DeepSeek是什麼?
根據《麻省理工科技評論》(MIT Technology review),DeepSeek是一家中國大陸的民營公司,由浙江大學畢業生梁文鋒於2023年7月創立。梁文鋒透過自己的對沖基金幻方量化(High-Flyer)為DeepSeek提供資金。
梁文鋒先前曾購買1萬片輝達A100晶片,據稱這些晶片成為創建DeepSeek的基礎。輝達A100晶片自2022年9月起被美國禁止出口至中國。
根據DeepSeek研究論文,工程師使用了大約2000片輝達H800晶片來訓練模型,他們利用眾多特製化模型讓效能較差的晶片也能以更有效率的方式分析資料。
為什麼DeepSeek震驚全球科技界?
DeepSeek宣稱,他們訓練DeepSeek大型語言模型的成本約560萬美元,(約1億8463萬元台幣)。相比之下,美國科技公司OpenAI卻花費逾1億美元(約33億元台幣)訓練最新版本的ChatGPT,成本約是DeepSeek的18倍。
分析師表示,鋻於DeepSeek並未使用最先進的晶片來驅動其AI模型,這項技術著實令人印象深刻。
對美國政府來說,DeepSeek的出現讓人懷疑,限制高階晶片出口至中國是否為有效的策略,因為DeepSeek的研究論文意味著創建高效能的AI模型根本不需要最先進的晶片,抑或中國仍然能取得充分的晶片數量,又或者兩種情況兼而有之。
無論如何,DeepSeek能以如此低成本創建出媲美諸多美國科技巨擘的AI模型,已打破建造厲害AI模型需要大量資金的迷思。換句話說,其他公司也能夠採取DeepSeek的策略,創造便宜的AI模型。
DeepSeek與其它競爭對手有何不同?
DeepSeek與OpenAI等競爭對手的一項重要區別是,DeepSeek的模型是開源的(open-source),因此關鍵組成部分可供任何人免費存取與修改。
然而,近日釋出的DeepSeek R1模型最令人讚嘆的特徵,是輝達稱為「測試階段運算擴展(Test-Time Compute Scaling)的完美範例」,即當AI模型有效的將一個大問題拆解為一系列較小的問題,讓模型以此思路進行一步步的訓練,無需再提供新資料的方式。換句話說,在推理過程中使用更多的計算週期來測試和驗證不同的回應和推理路徑,然後得出最終答案。在沒有足夠記憶體來運行大型模型的情況下,擴展測試階段運算特別有用。
美國智庫蘭德公司(Rand)研究員海姆(Lennart Heim)表示,OpenAI的推理模型從o1開始就具有相同的功能,其他如Anthropic和谷歌(Google)等公司也擁有類似但尚未發布的能力。
然而,海姆表示:「這是我們第一次看到有中國公司在相對較短的時間內就如此接近這項目標。我認為這就是為什麼有很多人關注它的原因。我以前都認為,OpenAI是領導者,是最厲害的,沒有人能趕得上。但事實證明並非完全是這樣。」