廣告

快訊 KNEWS

⚡

嘉義市明正常上班課　南高屏等4縣市放假

高雄山區土石流紅黃色警戒！5區急撤2千人

女縮胃手術身亡！　家屬控網紅醫疏失

台積電回應了！雨炸嘉義AP7廠淹水

川普：美國與歐盟貿易協議拍板　關稅降至15%

梁文鋒領軍DeepSeek團隊發表最新論文　可讓AI模型進一步降本增效

財經科技新知

2025/02/19 07:30

✎ CC 文章

【財經中心／台北報導】中國AI新創公司DeepSeek爆紅後，團隊近日發表一篇論文，介紹一種新的注意力機制NSA（Natively Sparse Attention，原生稀疏注意力機制）。

圖為DeepSeek的LOGO示意圖。法新社

zoomin — 圖為DeepSeek的LOGO示意圖。法新社

袁景陽為DeepSeek-V3技術報告主要作者

NSA專為長文本的訓練與推理設計，能夠利用動態分層稀疏策略等方法，透過針對現代硬體的優化設計，顯著改善傳統AI模型在訓練和推理過程中的表現，特別是提升長上下文的推理能力，在確保性能的同時提高推理速度，並有效降低預訓練成本。

財聯社報導，DeepSeek創辦人梁文鋒在論文作者名單中，排名倒數第二。其他研究人員來自DeepSeek、北京大學和華盛頓大學，其中第一作者袁景陽是在DeepSeek實習期間完成這項研究的。

資料顯示，袁景陽是北京大學的碩士研究生。他的研究領域包括大型語言模型（LLM）和AI在科學中的應用（AI for Science）。他是DeepSeek-V3技術報告的主要作者之一，還參與DeepSeek-R1項目，該項目主要在透過強化學習激勵大型語言模型的推理能力。

傳統注意力機制計算複雜度限制模型發展

在論文中，DeepSeek團隊指出，隨著大型語言模型的發展，長上下文建模變得更加重要，但傳統注意力機制的計算複雜度，會隨著序列長度的增加呈平方級成長，成為限制模型發展的關鍵瓶頸。

NSA便是為了高效處理長上下文任務而誕生的一種技術路徑，其核心創新在於：

1、動態分層稀疏策略。將粗粒度的Token壓縮和細粒度的Token選擇相結合，既保證全球上下文感知，又兼顧局部訊息的準確性。

2、硬體對齊與端到端訓練。透過算術強度平衡的算法設計和硬體優化，顯著提高計算速度，同時支援端到端訓練，減少預訓練計算量。

NSA在通用任務和長上下文任務中表現出色

實驗顯示，NSA不僅在通用任務和長上下文任務中表現出色，還在例如鏈式推理等複雜任務中展現強大的潛力，且推理速度加快。

在通用基準測試、長文本處理以及基於指令的推理任務中，NSA的表現均能達到甚至超越傳統全注意力（Full Attention）模型的水準，以性價比極高的方式，罕見地在訓練階段應用稀疏性，在訓練推理場景中顯著提升速度，特別是在解碼階段實現高達11.6倍的提升。

透過高效的長序列處理能力，NSA使模型能夠直接處理整本書、代碼庫或多輪對話（如千輪客服場景），擴展大語言模型在文檔分析、代碼生成、複雜推理等領域的應用邊界。例如，Gemini 1.5 Pro已展示長上下文的潛力，NSA能進一步降低這類模型的訓練與推理成本。

下載知新聞APP

⭐️ 即刻下載《知新聞》App！免費！

# AI # AI模型 # 大語言模型 # DeepSeek

知更多

阿里巴巴首推AI眼鏡搶市　挑戰Meta、小米智慧穿戴商機

阿里巴巴首推AI眼鏡搶市　挑戰Meta、小米智慧穿戴商機

Meta超智慧首席科學家出爐！　一文看華裔撐起AI夢幻團隊

Meta超智慧首席科學家出爐！　一文看華裔撐起AI夢幻團隊

愈來愈多人用AI寫履歷　外媒指會讓求職者像個機器人、喪失真實性

愈來愈多人用AI寫履歷　外媒指會讓求職者像個機器人、喪失真實性

「AI 教父」辛頓訪中演講！要像養老虎一樣把AI 訓練好　讓它不「殺」你

「AI 教父」辛頓訪中演講！要像養老虎一樣把AI 訓練好　讓它不「殺」你

AI投資有多瘋狂？　新創明星Anthropic不到5個月估值翻倍逾4.4兆

AI投資有多瘋狂？　新創明星Anthropic不到5個月估值翻倍逾4.4兆

川普推動AI計畫！黃仁勳：美國擁有的獨特優勢就是他　稱能源不該被妖魔化

川普推動AI計畫！黃仁勳：美國擁有的獨特優勢就是他　稱能源不該被妖魔化

【限量500杯】成為小知族立即喝拿鐵｜免費兌換進行中！

【限量500杯】成為小知族立即喝拿鐵｜免費兌換進行中！

今年輝達Blackwell出貨逾80%　研調點名富士康、美超微及廣達受惠

今年輝達Blackwell出貨逾80%　研調點名富士康、美超微及廣達受惠