70億參數LLM竟比700億參數LLM強 難怪輝達要投資Sakana AI
【編譯黃惠瑜/綜合外電】美國人工智慧(AI)晶片龍頭輝達(Nvidia)將投資日本AI新創公司Sakana AI,預計成為最大股東。由於Sakana AI創辦人之一瓊斯是AI劃時代研究論文《Attention Is All You Need》其中一名作者,加上團隊近期研究論文顯示,他們使用的創新演算法,可讓擁有70億參數的大型語言模型(LLM)打敗如Llama 2這類擁有700億參數的LLM,成效驚人,無怪乎成立短短不到一年就取得獨角獸地位。
美國《華爾街日報》4日報導,由谷歌(Google)前工程師於2023年創立的Sakana AI,週三宣布此次融資已經募得逾1億美元(約32億元台幣),輝達也是其中的投資者之一。
此次A輪融資由風險投資公司New Enterprise Associates、Khosla Ventures和Lux Capital主持。在新創公司融資或募資過程中,最初始的階段為種子輪,緊接在後的是天使輪,接下來就是A輪融資,在這階段通常需要有完整的商業模式,可以產出長期利潤。之後,公司商業模式站穩市場,可陸續進入B輪融資或甚至C輪融資等。
Sakana AI創立
總部位於日本東京的Sakana AI,2023年7月由兩名谷歌前工程師哈大衛(David Ha,音譯)與瓊斯(Llion Jones,音譯),以及曾在日本外務省任職的伊藤蓮(Ren Ito,音譯)共同創立。
70億參數LLM竟優於700億參數LLM
當前開源LLM的最新作法是透過人類的直覺與特定領域知識將不同的LLM合併,但根據Sakana AI表示,如此一來,這類LLM將受限於人類的直覺。因此,Sakana AI主要透過模仿自然界的機制,如演化機制、集體智慧等,來創造新的AI模型。
在3月發表的一篇論文中,Sakana AI團隊應用演化演算法,自動尋找出更有效的LLM合併組合。
研究結果顯示,透過這類演化演算法,Sakana AI的日語LLM模型表現,不僅超越了原始模型,還超越了擁有700億參數(70B)的Meta開源Llama 2,更超越目前最先進的日語LLM,即Japanese StableLM 70B,但Sakana AI的模型僅僅使用了70億(7B)至100億(10B)的參數,效果相當驚人。
相關新聞: