谷歌I/O開發者大會說了什麼?5大重點一次看 AI成為主軸

財經 AI話題
2024/05/15 10:20
CC 文章

【財經中心/台北報導】台北時間今天(5月15日)凌晨,Google舉辦年度I/O開發者大會,在長達2個小時的主題演講中, AI(人工智慧)成為這次活動的重心。

Google執行長皮查伊出席開發者大會。翻攝官網
Google執行長皮查伊出席開發者大會。翻攝官網
分享 加入好友

Gemini的升級

在演講中,這家科技巨頭也發表許多有關AI的產品和服務,財聯社整理如下:

Google推出「Gemini 1.5 Flash」作為「Gemini 1.5 Pro」更具成本效益的替代方案,同時仍具有強大的功能。Gemini 1.5 Flash從活動當天開始在Google的AI工作室和Vertex AI中提供公開預覽版。2月公佈的Gemini 1.5 Pro也將迎來升級,在今年稍晚會將100萬Tokens的窗口進一步擴大至200萬,這將使其能夠同時處理2小時的影片、22小時的音檔、超過 60000行程式碼或超過140萬個單字。

Google執行長皮查伊強調Gemini在跨語言方面的改進,將以35種語言向全球所有開發人員提供。皮查伊表示,Gemini 1.5 Pro可以分析PDF和影片以提供摘要,這意味著當用戶假期歸來後,模型可將電子郵件和附件一起進行總結。

專為智慧手機運作而設計的Gemini Nano也從純文字輸入擴展到可以圖片輸入。

谷歌表示,「手機將能透過文字、圖片、視訊、音檔,理解用戶的世界。」整個過程都在本地運作,不會引發隱私洩露。

開源大模型Gemma也將有一系列的更新,預定下個月推出的Gemma 2參數量將達到270億。 最後,Google的第一個視覺語言模型PaliGemma也被加入到Gemma模型系列中。

Veo、Imagen 3、音訊概述

針對OpenAI的Sora,Google也推出自己的影片產生模型「Veo」,可以根據文字、圖片和影片的提示,產生各種風格的高品質1080P影片。

Veo可以更好地理解自然語言,從而產生更能代表用戶視覺的影片。它還能理解「延時拍攝」等電影術語,以生成各種風格的影片,並讓用戶更好地控制最終輸出。

去年,Google推出一款名為「SynthID」的工具,可以在AI生成的圖像中嵌入人眼不可見的水印。在今天的大會上,公司宣布正在將這項工具擴展到文字和影片之中。上文提到的影片產生模型Veo,在該平台產生的所有影片都會包含SynthID浮水印。

谷歌還推出新一代的圖像生成模型「Imagen 3」,根據該公司的說法可產生迄今為止最高品質的圖像,圖像中具有更多細節和更少偽影,有助於創建更真實的視覺 體驗。

與Veo一樣,Imagen 3也改進其自然語言功能,可以更好地理解使用者提示及其背後的意圖。谷歌稱,Imagen 3是渲染文本的最佳選擇,目前只有選定的創作者才能使用,很快就會在Vertex AI中推出。

透過Gemini 1.5 Pro,音訊概述(Audio Overview)功能可基於原始檔案產生個人化和互動式音訊對話。

AI賦能Google搜尋

Google將AI融進其主導全球的搜尋引擎,從本周開始,Google搜尋引擎將在美國推出「AI概覽」(AI Overviews)的功能,搜尋引擎將直接歸納總結搜尋結果。

同時谷歌搜尋也將具備多步驟推理能力,可以一次處理帶有多個限制條件的長問題,並支援「拍影片」搜尋解決方案的新搜尋形式。根據現場演示,搜尋引擎具備多步驟推理的能力,例如尋找瑜珈教室,同時展示新手優惠報價,和距離特定位置的步行時間。這個AI搜尋引擎助手,還能介紹食譜、安排行程,以及接受影片形式的提問。

Astra項目

谷歌在大會上宣布一個名為「Astra」的高級視覺和對話響應智慧體項目,即開發能在日常生活中提供幫助的通用AI智慧體。媒體分析認為,這個計畫主要在開發一種類似《鋼鐵人》中AI系統「賈維斯」;根據Google的說法,為了做到真正實用,智慧體需要能夠像人一樣理解周圍複雜多變的環境並做出反應,它需要能接收並記憶所見所聞,從而了解上下文資訊並採取行動。

谷歌表示,它還需要具有主動性、「會學習」並能滿足個人化需求,這樣用戶才能自然地與它交談,不會有延遲或延遲。

AI晶片等硬體

谷歌推出第六代TPU(張量處理單元)「Trillium」,將在2024年底向雲端客戶提供。公司表示,與上一代TPU v5e相比,每個晶片的運算效能提高4.7倍。 除了TPU,Google也會推出CPU和GPU來支援工作負載。

皮查伊也在大會上提到,Google雲端將成為首批提供輝達Blackwell GPU的雲端供應商之一,他在演講也強調Google「與輝達的長期合作夥伴關係」。

知新聞 Line 官方帳號