梁文鋒領軍DeepSeek團隊發表最新論文 可讓AI模型進一步降本增效
【財經中心/台北報導】中國AI新創公司DeepSeek爆紅後,團隊近日發表一篇論文,介紹一種新的注意力機制NSA(Natively Sparse Attention,原生稀疏注意力機制)。

袁景陽為DeepSeek-V3技術報告主要作者
NSA專為長文本的訓練與推理設計,能夠利用動態分層稀疏策略等方法,透過針對現代硬體的優化設計,顯著改善傳統AI模型在訓練和推理過程中的表現,特別是提升長上下文的推理能力,在確保性能的同時提高推理速度,並有效降低預訓練成本。
財聯社報導,DeepSeek創辦人梁文鋒在論文作者名單中,排名倒數第二。其他研究人員來自DeepSeek、北京大學和華盛頓大學,其中第一作者袁景陽是在DeepSeek實習期間完成這項研究的。
資料顯示,袁景陽是北京大學的碩士研究生。他的研究領域包括大型語言模型(LLM)和AI在科學中的應用(AI for Science)。他是DeepSeek-V3技術報告的主要作者之一,還參與DeepSeek-R1項目,該項目主要在透過強化學習激勵大型語言模型的推理能力。
傳統注意力機制計算複雜度限制模型發展
在論文中,DeepSeek團隊指出,隨著大型語言模型的發展,長上下文建模變得更加重要,但傳統注意力機制的計算複雜度,會隨著序列長度的增加呈平方級成長,成為限制模型發展的關鍵瓶頸。
NSA便是為了高效處理長上下文任務而誕生的一種技術路徑,其核心創新在於:
1、動態分層稀疏策略。將粗粒度的Token壓縮和細粒度的Token選擇相結合,既保證全球上下文感知,又兼顧局部訊息的準確性。
2、硬體對齊與端到端訓練。透過算術強度平衡的算法設計和硬體優化,顯著提高計算速度,同時支援端到端訓練,減少預訓練計算量。
NSA在通用任務和長上下文任務中表現出色
實驗顯示,NSA不僅在通用任務和長上下文任務中表現出色,還在例如鏈式推理等複雜任務中展現強大的潛力,且推理速度加快。
在通用基準測試、長文本處理以及基於指令的推理任務中,NSA的表現均能達到甚至超越傳統全注意力(Full Attention)模型的水準,以性價比極高的方式,罕見地在訓練階段應用稀疏性,在訓練推理場景中顯著提升速度,特別是在解碼階段實現高達11.6倍的提升。
透過高效的長序列處理能力,NSA使模型能夠直接處理整本書、代碼庫或多輪對話(如千輪客服場景),擴展大語言模型在文檔分析、代碼生成、複雜推理等領域的應用邊界。例如,Gemini 1.5 Pro已展示長上下文的潛力,NSA能進一步降低這類模型的訓練與推理成本。