中國AI大模型DeepSeek強在哪? 在美App Store下載竟超越ChatGPT
【財經中心/台北報導】1月20日,中國大模型公司杭州深度求索正式發表DeepSeek R1模型,這模型在數學、編程和推理等領域的表現被稱為能媲美OpenAI的最強推理模型o1,但其API調用成本卻低90%~95%。僅僅1周時間,這個最新模型的表現和超低成本震驚矽谷,在AI領域引發關注。
DeepSeek伺服器一度當機
隨著DeepSeek熱度不斷攀升,1月26日,DeepSeek應用一度因用戶流量暴增,出現伺服器當機情況。1月27日,DeepSeek應用登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載排行榜甚至超越ChatGPT。
財聯社報導,中國中信證券指出,DeepSeek模型相比GPT4模型更小的參數量,意味著更低的推理成本,推理成本降低,將是AI應用普及的前奏。預計模型性價比提升下,Agent模式有望以更長的任務流程、更好的場景理解、更高的自主能力,成為所有網路用戶的數位助手,在企業管理、教育、辦公、金融等領域展現應用價值。
DeepSeek之所以引發關注,一方面是它以更低的訓練成本取得與OpenAI o1相當的性能,另一方面,它身為開源模型,採用MIT許可協議,支援免費商用、任意修改和衍生開發等。
DeepSeek訓練成本不到2億
DeepSeek-V3在僅使用2048個H800 GPU下,完成6710億參數模型的訓練,訓練成本僅557.6萬美元(約1.83億台幣),遠低於其他頂級模型的訓練成本(例如GPT-4的10億美元)。因此,一些人認為,DeepSeek可能會顛覆輝達在AI硬體領域的主導地位。
上周三,微軟執行長納德拉在達沃斯世界經濟論壇表示,「DeepSeek的新模型令人印象深刻,他們不僅有效地開發出一種開源模型,實現推理時間計算,計算效率極高…我們應該非常認真地對待中國的發展。」
Meta的AI科學家、圖靈獎得主Yann LeCun表示,DeepSeek的成功,不應該被看作中國的AI超越美國,而應看作開源模型正在超越專有模型。LeCun寫道:「DeepSeek受益於開放研究和開源…他們提出新的想法,並在其他人的工作基礎上構建這些想法。因為他們的工作是公開的和開源的,所以每個人都可以從中受益。」
DeepSeek在全類大模型排名第3
英國《金融時報》指出,DeepSeek的成功顛覆「AI研發必須依賴巨額投入」的傳統認知,證明精準的技術路線同樣可取得優異的研究成果。更重要的是,DeepSeek團隊對技術創新的開放和分享,讓這家公司成為挑戰OpenAI、Google和Meta等老牌公司主導地位的強勁競爭對手。
目前,在國外大模型排名榜Chatbot Arena上,DeepSeek-R1的基準測試排名已經升至全類別大模型第3,與OpenAI的ChatGPT-4o最新版並列,並在風格控制類模型(StyleCtrl)分類中與OpenAI的o1模型並列第一。
DeepSeek在海外用戶群中掀起熱潮。社交平台X上,DeepSeek也成為熱門話題。一位科技愛好者在X發布一篇名為「再見ChatGPT!」的貼文,直言DeepSeek最新模型才發表5天,全球已經被其潛力所震驚,這篇貼文獲得超過8000個轉發和超過5萬人點贊。
Meta成立4小組團隊研究DeepSeek
相較於OPENAI的ChatGPT,META旗下的開源AI模型Llama系列是DeepSeek最直接的競爭對手。據悉,隨著DeepSeek火熱,Meta生成AI小組和基礎設施團隊的經理和工程師,已開設4個作戰室來學習DeepSeek的工作原理。
其中兩個小組試圖了解DeepSeek如何降低訓練和運行的成本;第3個Meta研究小組試圖弄清楚DeepSeek可能使用哪些數據來訓練其模型;第四小組正考慮基於DeepSeek模型屬性重構Meta模型的新技術。