大小AI背後的語言模型 一文看懂LLM與SLM差異
【編譯黃惠瑜/綜合外電】人工智慧(AI)熱潮席捲全球,支援當前最夯AI模型如ChatGPT的大型語言模型(Large Language Model,LLM)引起熱烈討論。然而,隨著大型AI模型的高耗能特性浮現,各界對電力供應不足的擔憂日益加劇。為此,科技巨擘正加快腳步,推出由小型語言模型(Small Language Model,SLM)支援的小型AI,期望達到經濟實惠、專特任務和節省成本的目標。但LLM與SLM究竟有何差異?以下帶您來一起來認識。
一、規模
LLM與SLM最顯著的差異是規模大小。
LLM如ChatGPT-4包含的參數約1.76兆個。
SLM如Mistral 7B包含的參數約70億個。
二、資源消耗量
訓練LLM是一個資源密集的過程,需要使用雲端中GPU(圖形處理器)的運算資源。從頭開始訓練ChatGPT這類的LLM需要使用數千個GPU。
像Mistral 7B這類的SLM可脫離雲端,使用具有優質GPU的本地機器訓練參數,但仍需要好幾個小時使用不同GPU來運算才能完成。
三、成本
訓練LLM則需要耗費巨額成本,因為LLM需要巨大的參數空間以及運算力,因此需要高端的GPU或是特定的AI硬體,這些都非常昂貴。前英特爾(Intel)資料中心與AI事業部技術長亞本塞勒(Guido Appenzeller)曾表示,「GPT-3的訓練成本從50萬美元(約1621萬台幣)到460萬美元(約1億4917萬元台幣)不等,確切的數字要看硬體是什麼」。
SLM的運算成本較低,需要較少的資源(包括運算力和記憶體),不需要太強大的硬體,所以可降低基礎設施的成本。
四、上下文理解和領域的特定性
LLM創立的目標是希望在更廣泛的層面上,達到或甚至優於人類智慧。LLM使用更大的資料來源進行訓練,並預期在所有領域上都表現得比特定領域的SLM好一點。因此,LLM比SLM的擁有更多的功能。
另一方面,SLM是根據特定領域的資料訓練的模型,因此可能缺乏所有知識領域中的綜合性資訊。儘管如此,SLM從有限的資料中有效地學習和歸納,可以在特定的領域上勝過LLM。
五、偏見
LLM通常會存在偏見,因為除了沒有經過充分適當的微調以外,LLM使用的訓練資料是網路上公開存取和發佈的原始資料。基於原始資料的特性,LLM的訓練資料很有可能無法充分代表或甚至扭曲某一特定族群或想法,也有可能出現標記錯誤的情況。
相反的,SLM在相對較小的特定領域資料集上進行訓練,因此產生偏見的風險比LLM低。