廣告

蘋果論文測試5種推理模式揭AI「智力天花板」 專家:LLM到AGI是自欺欺人

國際 寰宇要聞
2025/06/10 14:47
黃惠瑜 文章
分享 分享 連結 APP

【編譯黃惠瑜/綜合外電】蘋果公司(Apple)的人工智慧(AI)研究員近日發表一篇論文,指出在最先進的AI模型中發現「根本上的局限性」。這篇論文無疑在當前科技業一窩蜂發展AI的研究潑了冷水,引發外界對於達到通用人工智慧(AGI)的可能性,以及當前AI技術真正能力的深度疑慮。

ChatGPT應用程式。法新社 zoomin
ChatGPT應用程式。法新社

英國《衛報》(The Guardian)報導,蘋果研究人員在周末發表的論文中指出,大型推理模型(large reasoning models,LRMs)在處理高度複雜的問題時會面臨「準確率徹底崩潰」的情況。

這篇論文一共測試了5種目前世上最先進的大型推理模型,包括OpenAI o3-mini中階與高階版、深度求索的DeepSeek-R1與DeepSeek-R1-Qwen-32B以及Anthropic的Claude 3.7 Sonnet推理版。

大型推理模型是一種先進的AI模型,其訓練方式是模仿人類解謎,進行一步步思考的模式,藉此解決複雜的問題。由於大型推理模型在給出答案之前,會產生詳細的內部「思考過程」,因此它們在許多測試中都有優異的表現。

這項研究測試了模型的解謎能力。研究發現,標準AI模型在低複雜度任務中的表現優於大型推理模型。然而,這兩種類型的模型在高複雜度任務中,都同樣遭遇了「徹底崩潰」的情況。

而且,當大型推理模型接近崩潰邊緣時,會開始「減少推理工作」。蘋果研究人員表示,他們對這種情況感到特別擔憂。

美國學者馬庫斯(Gary Marcus)稱蘋果的這篇論文「相當具有破壞性」。馬庫斯是紐約大學的心理學和神經科學榮譽教授,經常公開提醒大眾要對AI的實際能力保持謹慎和懷疑的態度。

馬庫斯在他的Substack媒體平台中寫道,這篇蘋果論文的發現引發了關於科技業競相發展通用人工智慧(AGI)的質疑。AGI是AI的一個理論階段,指AI系統能夠在執行任何智力相關任務時,都與人類的表現相當。

馬庫斯也順道批評了聊天機器人ChatGPT等工具所依賴的大型語言模型 (large language model,LLM)。

馬庫斯表示:「任何認為LLM是通往能從根本上徹底改善社會的通用人工智慧(AGI)直接途徑的人,都只是在自欺欺人。」

相關新聞:定義有差!阿特曼:若2020年看到ChatGPT 大多數人會以為就是AGI

鑽牛角尖?

這篇論文還發現,在處理簡單問題時,大型推理模型經常會過度思考。雖然很早就得出正確答案,但仍會繼續探索錯誤選項,浪費運算資源。

給了算法還崩潰

然而,處理更複雜的問題時,大型推理模型反而進入崩潰的狀態,完全無法產生正確的解決方案。在一個案例中,即使研究人員提供了可以解決問題的演算法,大型推理模型仍然失敗了。

問題越難越不思考

論文指出:「當接近一個關鍵臨界值,也就是幾乎達到它們的準確度崩潰點時,儘管問題難度不斷增加,但模型卻違反直覺的開始減少推理工作量。」

蘋果專家表示,這顯示「目前推理模型的思考能力存在根本性的擴展限制」。

相關新聞:

Meta首席AI專家:LLM無法實現AGI 連4歲小孩都比它強

大小AI背後的語言模型 一文看懂LLM與SLM差異

小辭典|AI世代必看 速讀10大關鍵字掌握未來

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

# AI # 人工智慧 # 通用人工智慧 # AGI # 大型推理模型 # OpenAI # DeepSeek # Anthropic