「買個菜不用開戰車去」 全球AI浪潮開始轉向聚焦中小型語言模型
【財經中心/台北報導】隨著生成式AI浪潮崛起後,科技大廠紛紛投入AI軍備競賽,大語言模型在巨量資料上進行訓練,試圖模仿具有人類智慧水準的人工智慧,然而如今,大量科技巨頭和新創公司正開始考慮縮小AI軟體的規模,使其更便宜、更快速、更專業。
小型語言模型訓練成本不到1000萬美元
這類AI軟體稱為小型語言模型(SLM)或中型語言模型,使用較少的資料進行訓練,通常專為特定任務而設計。
相較之下,那些知名的大型語言模型(LLM),如OpenAI的GPT-4,開發成本超過1億美元,訓練的參數達到逾1兆,較小的語言模型則通常在較窄的資料集上進行訓練,例如可能僅聚焦於法律問題上,其訓練成本往往可能不到1000萬美元,參數不到100億,較小的模型也將消耗較少的算力,因此回應每個查詢的成本也較低。
財聯社引用《華爾街日報》報導指出,近幾個月來,微軟就正在大力宣傳其名為「Phi」輕量級AI模型系列。微軟執行長Satya Nadella表示,這些模型的大小只有OpenAI的ChatGPT免費模型1/100,但執行許多任務的效果卻幾乎一樣好。
微軟商務長Yusuf Mehdi表示,「我認為,我們越來越有理由相信,未來將是一個由不同(大小)模型組成的世界。」Mehdi稱,微軟是全球首批在生成式AI上押注數十億美元的大型科技公司之一,我們也很快意識到,AI的營運成本比公司最初預計的要高。
OpenAI對較小模型抱持開放態度
微軟最近也推出新型態的AI筆電,搭載數十個AI模型進行搜尋和影像生成。這些模型需要用到的資料非常少,可以在終端設備上運作,而不需要像ChatGPT那樣儲存在龐大的雲端資料中心。
Google以及AI新創公司Mistral、Anthropic和Cohere今年也發表更小的模型。蘋果在6月公布該公司的AI路徑圖時,也計劃使用小型模型,這樣就可以完全在手機上運行軟體,使其更快捷方便、也更安全。
就連一直處於大型模型模型浪潮前沿的OpenAI,也在5月發表其旗艦模型的新版本GPT-4o,並稱該模型營運成本更低。一位OpenAI發言人表示,該公司對未來發表較小的模型持開放態度。
對於許多任務來說,例如匯總文件或生成圖像,大型語言模型如今顯得可能有些「奢侈」。一些業界人士將此形容為「相當於開著戰車去買菜」。
生成式AI技術何時可回收還不明朗
《華爾街日報》指出,目前從事區塊鏈技術研究的Illia Polosukhin是2017年谷歌一篇開創性論文的作者之一,該論文為目前的生成式人工智慧熱潮奠定了基礎。 Polosukhin近來就表示,單單計算「2+2」不應該需要進行無數次運算。
事實上,就財務成本考量來看,在生成式AI技術的回報尚不明確下,企業和消費者一直在尋找以更低成本運作AI的方法。
位於以色列特拉維夫的AI公司AI21 Labs聯合創辦人Yoav Shoham稱,由於只需使用較少的算力,在許多情況下,小型模型回答問題的成本僅為大型語言模型的1/6。如果你要進行數十萬甚至數百萬次回答,使用大模型在經濟上其實行不通
目前的關鍵在於,如何更有效地將這些較小的模型集中在一組數據上,例如內部通訊、法律文件或銷售數字,以執行撰寫電子郵件等特定任務,這一訓練過程被稱為微調(Fine-tuning)。透過微調,可以讓小型模型在執行這些任務時與大型語言模型一樣有效,而成本只是大型模型的一小部分。
新創公司Snorkel AI的聯合創辦人Alex Ratner表示,「讓這些更小、更專業的模型在這些更枯燥但更重要的領域工作,是目前AI的前沿領域。」
Snorkel AI目前的業務範圍包括幫助企業客製化AI模型。
AI巨頭大語言模型迭代速度放緩
在企業用戶端,信用評級公司益百利近來已將其用於金融諮詢和客戶服務的AI聊天機器人,從大語言模型轉向小語言模型。
益百利資料長Ali Khan表示,在公司內部資料上進行訓練時,小型模型的表現與大型模型不相上下,而成本僅為大型模型的一小部分。他表示,這些小模型可以針對一個明確的問題領域,和一系列任務進行特定訓練。
Salesforce人工智慧部門主管Clara Shih則表示,這些小模型的反應速度相比大模型也更快。Shih稱,「使用大型模型,你會付出過高的成本並且有延遲問題,有時根本用不著。」
值得一提的是,在開始轉向小語言模型的同時,許多AI巨頭大型語言模型的迭代速度也正在放緩。
自從OpenAI去年發布GPT 4(與之前的模型GPT 3.5相比,功能有顯著提升)以來,還沒有新的迭代模型(GPT 5)發布。研究人員認為,造成這種情況的原因包括用於訓練的高品質新資料稀缺。
AI從科幻小說走向商業現實
這趨勢也讓人們開始更關注小模型。領導Phi模型專案的微軟公司高層Sébastien Bubeck表示,「現在正是大家都在等待的一個小間歇期,這會讓人們的注意力轉向,他們會想,『好吧,我們還能不能讓這些東西更有效率?』」
目前,還不清楚這種迭代停滯是暫時的,還是遭遇一個更棘手的技術瓶頸問題。但是,小型語言模型的大量湧現,仍說明AI正在從科幻小說般的夢幻演示,演變成不那麼令人興奮的商業現實。
當然,許多公司並沒有完全放棄大型語言模式。蘋果已宣布將在其Siri助理中加入ChatGPT,以執行撰寫電子郵件等更複雜的任務。微軟表示,其最新版的Windows也將整合OpenAI的最新模型。不過,兩家公司都只是將OpenAI整合作為其整體人工智慧方案的一部分,顯然並沒有把所有的籌碼都押注於此。