70億參數LLM竟比700億參數LLM強 難怪輝達要投資Sakana AI

國際 寰宇要聞
2024/09/05 18:44
黃惠瑜 文章

【編譯黃惠瑜/綜合外電】美國人工智慧(AI)晶片龍頭輝達(Nvidia)將投資日本AI新創公司Sakana AI,預計成為最大股東。由於Sakana AI創辦人之一瓊斯是AI劃時代研究論文《Attention Is All You Need》其中一名作者,加上團隊近期研究論文顯示,他們使用的創新演算法,可讓擁有70億參數的大型語言模型(LLM)打敗如Llama 2這類擁有700億參數的LLM,成效驚人,無怪乎成立短短不到一年就取得獨角獸地位。

輝達執行長黃仁勳。美聯社
輝達執行長黃仁勳。美聯社
分享 加入好友

美國《華爾街日報》4日報導,由谷歌(Google)前工程師於2023年創立的Sakana AI,週三宣布此次融資已經募得逾1億美元(約32億元台幣),輝達也是其中的投資者之一。

此次A輪融資由風險投資公司New Enterprise Associates、Khosla Ventures和Lux Capital主持。在新創公司融資或募資過程中,最初始的階段為種子輪,緊接在後的是天使輪,接下來就是A輪融資,在這階段通常需要有完整的商業模式,可以產出長期利潤。之後,公司商業模式站穩市場,可陸續進入B輪融資或甚至C輪融資等。

Sakana AI創立

總部位於日本東京的Sakana AI,2023年7月由兩名谷歌前工程師哈大衛(David Ha,音譯)與瓊斯(Llion Jones,音譯),以及曾在日本外務省任職的伊藤蓮(Ren Ito,音譯)共同創立。

廣告

70億參數LLM竟優於700億參數LLM

當前開源LLM的最新作法是透過人類的直覺與特定領域知識將不同的LLM合併,但根據Sakana AI表示,如此一來,這類LLM將受限於人類的直覺。因此,Sakana AI主要透過模仿自然界的機制,如演化機制、集體智慧等,來創造新的AI模型。

在3月發表的一篇論文中,Sakana AI團隊應用演化演算法,自動尋找出更有效的LLM合併組合。

研究結果顯示,透過這類演化演算法,Sakana AI的日語LLM模型表現,不僅超越了原始模型,還超越了擁有700億參數(70B)的Meta開源Llama 2,更超越目前最先進的日語LLM,即Japanese StableLM 70B,但Sakana AI的模型僅僅使用了70億(7B)至100億(10B)的參數,效果相當驚人。

相關新聞:

彭博:矽谷應學日本獨角獸Sakana AI 別再造沒用的聊天機器人

大小AI背後的語言模型 一文看懂LLM與SLM差異

OpenAI的威脅越來越大 便宜、易客製化的小型AI崛起

知新聞 Line 官方帳號

⭐️ 即刻下載《知新聞》App!免費!

下載《知新聞》APP!免費兌換「總裁牛肉麵」美味小菜
# AI # 人工智慧 # Sakana AI # 大型語言模型 # LLM