谷歌I/O開發者大會說了什麼？5大重點一次看　AI成為主軸

財經 AI話題

2024/05/15 10:20

✎ CC 文章

【財經中心／台北報導】台北時間今天（5月15日）凌晨，Google舉辦年度I/O開發者大會，在長達2個小時的主題演講中， AI（人工智慧）成為這次活動的重心。

Gemini的升級

在演講中，這家科技巨頭也發表許多有關AI的產品和服務，財聯社整理如下：

Google推出「Gemini 1.5 Flash」作為「Gemini 1.5 Pro」更具成本效益的替代方案，同時仍具有強大的功能。Gemini 1.5 Flash從活動當天開始在Google的AI工作室和Vertex AI中提供公開預覽版。2月公佈的Gemini 1.5 Pro也將迎來升級，在今年稍晚會將100萬Tokens的窗口進一步擴大至200萬，這將使其能夠同時處理2小時的影片、22小時的音檔、超過 60000行程式碼或超過140萬個單字。

Google執行長皮查伊強調Gemini在跨語言方面的改進，將以35種語言向全球所有開發人員提供。皮查伊表示，Gemini 1.5 Pro可以分析PDF和影片以提供摘要，這意味著當用戶假期歸來後，模型可將電子郵件和附件一起進行總結。

專為智慧手機運作而設計的Gemini Nano也從純文字輸入擴展到可以圖片輸入。

谷歌表示，「手機將能透過文字、圖片、視訊、音檔，理解用戶的世界。」整個過程都在本地運作，不會引發隱私洩露。

開源大模型Gemma也將有一系列的更新，預定下個月推出的Gemma 2參數量將達到270億。最後，Google的第一個視覺語言模型PaliGemma也被加入到Gemma模型系列中。

Veo、Imagen 3、音訊概述

針對OpenAI的Sora，Google也推出自己的影片產生模型「Veo」，可以根據文字、圖片和影片的提示，產生各種風格的高品質1080P影片。

Veo可以更好地理解自然語言，從而產生更能代表用戶視覺的影片。它還能理解「延時拍攝」等電影術語，以生成各種風格的影片，並讓用戶更好地控制最終輸出。

去年，Google推出一款名為「SynthID」的工具，可以在AI生成的圖像中嵌入人眼不可見的水印。在今天的大會上，公司宣布正在將這項工具擴展到文字和影片之中。上文提到的影片產生模型Veo，在該平台產生的所有影片都會包含SynthID浮水印。

谷歌還推出新一代的圖像生成模型「Imagen 3」，根據該公司的說法可產生迄今為止最高品質的圖像，圖像中具有更多細節和更少偽影，有助於創建更真實的視覺體驗。

與Veo一樣，Imagen 3也改進其自然語言功能，可以更好地理解使用者提示及其背後的意圖。谷歌稱，Imagen 3是渲染文本的最佳選擇，目前只有選定的創作者才能使用，很快就會在Vertex AI中推出。

透過Gemini 1.5 Pro，音訊概述（Audio Overview）功能可基於原始檔案產生個人化和互動式音訊對話。

AI賦能Google搜尋

Google將AI融進其主導全球的搜尋引擎，從本周開始，Google搜尋引擎將在美國推出「AI概覽」（AI Overviews）的功能，搜尋引擎將直接歸納總結搜尋結果。

同時谷歌搜尋也將具備多步驟推理能力，可以一次處理帶有多個限制條件的長問題，並支援「拍影片」搜尋解決方案的新搜尋形式。根據現場演示，搜尋引擎具備多步驟推理的能力，例如尋找瑜珈教室，同時展示新手優惠報價，和距離特定位置的步行時間。這個AI搜尋引擎助手，還能介紹食譜、安排行程，以及接受影片形式的提問。

Astra項目

谷歌在大會上宣布一個名為「Astra」的高級視覺和對話響應智慧體項目，即開發能在日常生活中提供幫助的通用AI智慧體。媒體分析認為，這個計畫主要在開發一種類似《鋼鐵人》中AI系統「賈維斯」；根據Google的說法，為了做到真正實用，智慧體需要能夠像人一樣理解周圍複雜多變的環境並做出反應，它需要能接收並記憶所見所聞，從而了解上下文資訊並採取行動。

谷歌表示，它還需要具有主動性、「會學習」並能滿足個人化需求，這樣用戶才能自然地與它交談，不會有延遲或延遲。