70億參數LLM竟比700億參數LLM強　難怪輝達要投資Sakana AI

國際寰宇要聞

2024/09/05 18:44

【編譯黃惠瑜／綜合外電】美國人工智慧（AI）晶片龍頭輝達（Nvidia）將投資日本AI新創公司Sakana AI，預計成為最大股東。由於Sakana AI創辦人之一瓊斯是AI劃時代研究論文《Attention Is All You Need》其中一名作者，加上團隊近期研究論文顯示，他們使用的創新演算法，可讓擁有70億參數的大型語言模型（LLM）打敗如Llama 2這類擁有700億參數的LLM，成效驚人，無怪乎成立短短不到一年就取得獨角獸地位。

美國《華爾街日報》4日報導，由谷歌（Google）前工程師於2023年創立的Sakana AI，週三宣布此次融資已經募得逾1億美元（約32億元台幣），輝達也是其中的投資者之一。

此次A輪融資由風險投資公司New Enterprise Associates、Khosla Ventures和Lux Capital主持。在新創公司融資或募資過程中，最初始的階段為種子輪，緊接在後的是天使輪，接下來就是A輪融資，在這階段通常需要有完整的商業模式，可以產出長期利潤。之後，公司商業模式站穩市場，可陸續進入B輪融資或甚至C輪融資等。

Sakana AI創立

總部位於日本東京的Sakana AI，2023年7月由兩名谷歌前工程師哈大衛（David Ha，音譯）與瓊斯（Llion Jones，音譯），以及曾在日本外務省任職的伊藤蓮（Ren Ito，音譯）共同創立。

70億參數LLM竟優於700億參數LLM

當前開源LLM的最新作法是透過人類的直覺與特定領域知識將不同的LLM合併，但根據Sakana AI表示，如此一來，這類LLM將受限於人類的直覺。因此，Sakana AI主要透過模仿自然界的機制，如演化機制、集體智慧等，來創造新的AI模型。

在3月發表的一篇論文中，Sakana AI團隊應用演化演算法，自動尋找出更有效的LLM合併組合。

研究結果顯示，透過這類演化演算法，Sakana AI的日語LLM模型表現，不僅超越了原始模型，還超越了擁有700億參數（70B）的Meta開源Llama 2，更超越目前最先進的日語LLM，即Japanese StableLM 70B，但Sakana AI的模型僅僅使用了70億（7B）至100億（10B）的參數，效果相當驚人。