大小AI背後的語言模型 一文看懂LLM與SLM差異

國際 熱搜話題
2024/07/07 20:55
黃惠瑜 文章

【編譯黃惠瑜/綜合外電】人工智慧(AI)熱潮席捲全球,支援當前最夯AI模型如ChatGPT的大型語言模型(Large Language Model,LLM)引起熱烈討論。然而,隨著大型AI模型的高耗能特性浮現,各界對電力供應不足的擔憂日益加劇。為此,科技巨擘正加快腳步,推出由小型語言模型(Small Language Model,SLM)支援的小型AI,期望達到經濟實惠、專特任務和節省成本的目標。但LLM與SLM究竟有何差異?以下帶您來一起來認識。

OpenAI。法新社 zoomin
OpenAI。法新社
分享 連結 下載App

一、規模

LLM與SLM最顯著的差異是規模大小。

LLM如ChatGPT-4包含的參數約1.76兆個。

SLM如Mistral 7B包含的參數約70億個。

二、資源消耗量

訓練LLM是一個資源密集的過程,需要使用雲端中GPU(圖形處理器)的運算資源。從頭開始訓練ChatGPT這類的LLM需要使用數千個GPU。

像Mistral 7B這類的SLM可脫離雲端,使用具有優質GPU的本地機器訓練參數,但仍需要好幾個小時使用不同GPU來運算才能完成。

廣告

三、成本

訓練LLM則需要耗費巨額成本,因為LLM需要巨大的參數空間以及運算力,因此需要高端的GPU或是特定的AI硬體,這些都非常昂貴。前英特爾(Intel)資料中心與AI事業部技術長亞本塞勒(Guido Appenzeller)曾表示,「GPT-3的訓練成本從50萬美元(約1621萬台幣)到460萬美元(約1億4917萬元台幣)不等,確切的數字要看硬體是什麼」。

SLM的運算成本較低,需要較少的資源(包括運算力和記憶體),不需要太強大的硬體,所以可降低基礎設施的成本。

四、上下文理解和領域的特定性

LLM創立的目標是希望在更廣泛的層面上,達到或甚至優於人類智慧。LLM使用更大的資料來源進行訓練,並預期在所有領域上都表現得比特定領域的SLM好一點。因此,LLM比SLM的擁有更多的功能。

另一方面,SLM是根據特定領域的資料訓練的模型,因此可能缺乏所有知識領域中的綜合性資訊。儘管如此,SLM從有限的資料中有效地學習和歸納,可以在特定的領域上勝過LLM。

五、偏見

LLM通常會存在偏見,因為除了沒有經過充分適當的微調以外,LLM使用的訓練資料是網路上公開存取和發佈的原始資料。基於原始資料的特性,LLM的訓練資料很有可能無法充分代表或甚至扭曲某一特定族群或想法,也有可能出現標記錯誤的情況。

相反的,SLM在相對較小的特定領域資料集上進行訓練,因此產生偏見的風險比LLM低。

知新聞 Line 官方帳號

⭐️ 即刻下載《知新聞》App!免費!

餐酒館
台北市知名永康街蔥抓餅二店
# LLM # SLM # 大型語言模型 # 小型語言模型 # AI # 人工智慧 # 語言模型 # ChatGPT # Mistral 7B