東南亞第一大型語言模型!含括11種語言 Sony與新加坡AI專家研發

國際 東協萬象
2024/09/11 18:28
黃惠瑜 文章

【編譯黃惠瑜/綜合外電】不讓西方大型語言模型專美於前!日本索尼研究部門與新加坡政府主導的人工智慧(AI)計畫團隊將共同合作,研發東南亞語言的開源大型語言模型(LLM),包括印尼語、馬來語、泰語、寮國語和高棉語等11種語言都將成為重點涵蓋對象。

海獅。法新社 zoomin
海獅。法新社
分享 連結 下載App

根據Sony AI官網週二(9/10)發布的新聞稿,索尼研究部門(Sony Research)與新加坡政府AI計畫團隊(AI Singapore,AISG)宣布簽署合作意向書,將共同研究東南亞語言的大型語言模型,此研究計畫名稱為Southeast Asian Languages in One Network(暫譯:東南亞語言在一網絡,簡稱SEA-LION諧音為「海獅」),SEA-LION將是建構在東南亞地區文化下的開源大型語言模型。

索尼的AI團隊與AI Singapore雙方將對SEA-LION模型進行測試與反饋,並分享研發大型語言模型的最佳方法。藉由索尼研究部門在印度的強大影響力,雙方的合作也將延伸至印度各種語言的大型語言模型,包括坦米爾語(Tamil),以及最近在語音生成、內容分析與辨識領域的研究成果。坦米爾語在全球約有6000萬至8500萬的使用人口。

東南亞地區的文化、價值觀與標準與西方國家不同,但目前大多數的大型語言模型的都是根據西方語言建構而成。為解決此問題,SEA-LION計畫專門針對東南亞文化背景與語言細微差異進行預訓練和指令微調。

根據AI Singapore官網,SEA-LION計畫是東南亞地區眾多語言數據收集的先驅,包括對印尼語、馬來語、坦米爾語、緬甸語、菲律賓語、越南語、泰語、寮國語和高棉語等都進行了廣泛的數據收集,另外也包括常見的英語和漢語。

這些對東南亞語言廣泛收集得來的數據,將使用於訓練、微調和評估大型語言模型,提高東南亞大型語言模型的能力以及對文化背景的認識。

索尼研究部門總裁北野宏明(Hiroaki Kitano)表示,「作為一家全球化的公司,多元化和本土化是關鍵力量。特別是在東南亞,這地區的人民使用了超過一千種不同的語言。這種語言多樣性突顯了確保AI模型和工具能夠支援全球人口需求的重要性」。

開源模型

AI Singapore的AI產品高級總監張雷斯里(Leslie Teo,音譯)表示,SEA-LION作為開源模型,代表著使用者可以檢視並核對其用來訓練的數據,並在此基礎上建構新的應用程式。

張雷斯里說,「如果大家使用我們的數據建構更好的模型,那對我們是更好的事。我們擁有的優勢是,我們不受利潤或損失驅動」。

他說,「那就是為什麼我們對SEA-LION這個名字深思熟慮的原因……我們希望新加坡能參與其中,但不希望新加坡成為『擁有者』。這是每個人的文化和語言」。

廣告

知新聞 Line 官方帳號

⭐️ 即刻下載《知新聞》App!免費!

# 大型語言模型 # LLM # AI # 人工智慧 # SEA-LION model # AI Singapore # Sony AI