廣告

訓練成本不到2000元 美AI研究人員打造出媲美OpenAI o1的推理模型

國際 寰宇要聞
2025/02/06 21:29
黃惠瑜 文章

【編譯黃惠瑜/綜合外電】訓練人工智慧(AI)模型似乎越來越便宜。美國史丹佛大學和華盛頓大學的AI研究員日前發表論文指出,他們以不到50美元(約1641元台幣)的雲端運算費用,成功訓練出一個AI「推理」模型s1,s1在數學與編碼能力測試的表現可與OpenAI o1和近期爆紅的中國大陸新創公司「深度求索」(DeepSeek)R1模型相媲美。

分享 連結 下載App
示意圖。翻攝免費圖庫Pixabay zoomin
示意圖。翻攝免費圖庫Pixabay

科技新聞網站TechCrunch週三(2/5)報導,美國史丹佛大學和華盛頓大學的AI研究員表示,他們從現成的基礎模型開始,透過對另一個AI模型的答案進行訓練以提取其「推理」能力的過程,然後將基礎模型微調,最後成功訓練出一個推理能力可與OpenAI o1與DeepSeek R1等尖端推理模型相匹敵的模型。

研究團隊使用的基礎模型為谷歌(Google)的推理模型之一Gemini 2.0 Flash Thinking Experimental。

研究團隊指出,他們的目標是要尋找最簡單的方法來實現強大的推理性能和「測試時擴展」(test-time scaling),亦即讓AI模型在回答問題之前能進行更多思考。OpenAI o1以擴展測試時的運算時間達成尖端推理表現,DeepSeek與其他AI研究團隊也試圖透過各種技術複製這類突破性表現。研究人員指出,儘管DeepSeek成功複製OpenAI o1的表現,卻尚未有成功複製「測試時擴展」的表現。

這篇關於s1模型的論文提出,可以利用相對較小的資料集,並使用一種稱為監督微調(supervised fine-tuning,SFT)的過程提煉推理模型,在這樣的過程中,AI模型會接收到明確的指示,模仿資料集中的特定行為。

報導指稱,監督微調技術通常比DeepSeek用來訓練R1的「大規模強化學習」(large-scale reinforcement learning,RL)技術更便宜。

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

廣告
知新聞年度報導
# OpenAI # AI # DeepSeek