廣告

AI產業另一殺手?阿里巴巴推最新AI模型 號稱效能超越DeepSeek-R1

財經 科技新知
2025/03/07 09:29
CC 文章

【財經中心/台北報導】阿里巴巴Qwen團隊昨宣布最新研究成果通義千問「QwQ-32B」大語言模型,帶動阿里巴巴股價昨天一度大漲8%,阿里旗下Qwen團隊表示,QwQ-32B是擁有320億參數的模型,其效能可與具備6710億參數(其中370億被啟動)的DeepSeek-R1 媲美。

分享 分享 連結 APP
阿里巴巴推出QwQ-32B大語言AI模型,號稱效能超越DeepSeek。法新社 zoomin
阿里巴巴推出QwQ-32B大語言AI模型,號稱效能超越DeepSeek。法新社

QwQ-32B在數學推理、程式設計超越DeepSeek-R1

阿里巴巴團隊指出,這項成果突顯將強化學習應用於經過大規模預訓練的基礎模型有效性,此外,還在推理模型中整合與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境回饋調整推理過程。

QwQ-32B在一系列基準測試如數學推理、程式設計能力和通用能力,能力可媲美甚至超越DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的DeepSeek-R1。

香港經濟日報報導,蘋果機器學習科學家Awni Hannun表示,即使性能可媲美DeepSeek R1,但QwQ-32B在筆電也能運行,他是使用配備蘋果M4 Max處理器、深度學習框架MLX的電腦運行。

初期針對數學和程式設計任務進行RL訓練

Qwen團隊表示,在冷啟動的基礎上進行大規模強化學習。在初期階段,特別針對數學和程式設計任務進行RL訓練。與依賴傳統的獎勵模型(reward model)不同,透過校驗產生答案的正確性來為數學問題提供回饋,並透過程式碼執行伺服器評估產生的程式碼是否成功,透過測試案例來提供程式碼的回饋。

隨著訓練輪次的推進,這兩個領域的表現均持續提升。在第一階段的RL過後,增加另一個針對通用能力的RL,此階段使用通用獎勵模型和一些基於規則的驗證器進行訓練,團隊發現,透過少量步驟的通用RL,可以提升其他通用能力,同時在數學和程式設計任務上的表現並沒有顯著下降。

阿里巴巴通義千問「QwQ-32B」大語言模型。翻攝官網 zoomin
阿里巴巴通義千問「QwQ-32B」大語言模型。翻攝官網
廣告

QwQ-32B成功登頂全球開源社區榜首

且根據全球最大的AI開源社區Hugging Face更新大模型榜單顯示,剛發表並開源的阿里巴巴通義千問推理模型QwQ-32B成功登上榜單首位。

阿里通義千問QwQ-32B是一款擁有320億參數的模型,在數學、代碼及通用能力上實現質的飛躍,用更小參數實現整體性能媲美DeepSeek-R1,並突破性地讓高性能推理模型在消費級顯卡上實現本地部署,大幅降低模型應用成本。

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

廣告
廣告
# 阿里巴巴 # QwQ-32B # 大語言模型 # AI模型 # DeepSeek