訓練成本不到2000元　美AI研究人員打造出媲美OpenAI o1的推理模型

國際寰宇要聞

2025/02/06 21:29

【編譯黃惠瑜／綜合外電】訓練人工智慧（AI）模型似乎越來越便宜。美國史丹佛大學和華盛頓大學的AI研究員日前發表論文指出，他們以不到50美元（約1641元台幣）的雲端運算費用，成功訓練出一個AI「推理」模型s1，s1在數學與編碼能力測試的表現可與OpenAI o1和近期爆紅的中國大陸新創公司「深度求索」（DeepSeek）R1模型相媲美。

科技新聞網站TechCrunch週三（2/5）報導，美國史丹佛大學和華盛頓大學的AI研究員表示，他們從現成的基礎模型開始，透過對另一個AI模型的答案進行訓練以提取其「推理」能力的過程，然後將基礎模型微調，最後成功訓練出一個推理能力可與OpenAI o1與DeepSeek R1等尖端推理模型相匹敵的模型。

研究團隊使用的基礎模型為谷歌（Google）的推理模型之一Gemini 2.0 Flash Thinking Experimental。

研究團隊指出，他們的目標是要尋找最簡單的方法來實現強大的推理性能和「測試時擴展」（test-time scaling），亦即讓AI模型在回答問題之前能進行更多思考。OpenAI o1以擴展測試時的運算時間達成尖端推理表現，DeepSeek與其他AI研究團隊也試圖透過各種技術複製這類突破性表現。研究人員指出，儘管DeepSeek成功複製OpenAI o1的表現，卻尚未有成功複製「測試時擴展」的表現。

這篇關於s1模型的論文提出，可以利用相對較小的資料集，並使用一種稱為監督微調（supervised fine-tuning，SFT）的過程提煉推理模型，在這樣的過程中，AI模型會接收到明確的指示，模仿資料集中的特定行為。

報導指稱，監督微調技術通常比DeepSeek用來訓練R1的「大規模強化學習」（large-scale reinforcement learning，RL）技術更便宜。