周末精選|9大亮點看Google開發者大會 AI搜尋、Gemini、影像創作包辦人類全生活
【編譯張翠蘭/綜合外電】網路搜尋龍頭Google日前舉行I/O年度開發者大會,一口氣發布多達100項更新,表明主宰人工智慧(AI)領域的意圖,從全新的「AI Mode」搜尋模式、到AI模型Gemini將融入Chrome瀏覽器以挑戰OpenAI的ChatGPT、智慧眼鏡可穿戴技術,還有圖像與影片生成模型Imagen 4 與Veo 3 ,可以看出Google想要包辦人類日常生活的野心。

想要證明Google確實已全力投入AI,今年的I/O開發者大會就是最好的證明,展現了該公司新的AI格局。
Google並發布過去一年來的AI成就,包括去年同期AI產品和API每月處理的詞元(token)總量為9.7兆;現在每月已超過480兆,成長50倍。超過700萬名開發者使用Gemini 模型進行開發,比去年同期增加5倍;在 Vertex AI上的Gemini使用量也成長了40倍。而Gemini應用程式的每月活躍使用人數已突破4億;Gemini 應用程式中使用2.5 Pro的使用者,使用量更增加了45%。
以下是此次大會亮點:
1.最強大AI搜尋
Google搜尋迎來迄今為止最大的AI升級,執行長皮查伊(Sundar Pichai)稱之為Google最具標誌性功能的「全面改革」。全新的「AI模式」(AI Mode),改寫傳統連結列表,以對話式AI方式,提供整合的結果,包括一目了然的圖表。此功能類似於與ChatGPT、Bing或Perplexity等AI聊天機器人的互動,直接回答使用者查詢。
此功能會先在美國開放,並將首先應用於活動門票、餐廳訂位與在地預約服務。用戶透過Gemini App,可以自動搜尋房源、安排看房行程。
AI模式中也加入了功能更強大的Deep Research,可幫助用戶完成深度研究與探索。其採用的查詢擴展技術能發出數百個搜尋指令、整合不同來源的資訊進行推理,並在幾分鐘內生成一份包含完整引用來源的研究報告,節省過去可能需要花費數小時的資料搜集與研究時間。

2.虛擬試穿、比價
由於品牌、零售商、賣家等數量龐大,網路購物可能瞬間從簡單變得混亂,Google利用AI來簡化購物流程。
「AI模式」提供AI購物體驗,例如用戶輸入指示「我正在尋找一個可愛的錢包」,即可獲得各式參考的產品和圖像。若用戶進一步輸入「這趟旅行是5月要去俄勒岡州波特蘭。」AI模式便會同時進行多項搜尋,以了解哪一款包包適合多雨天氣與長途旅行,並根據這些條件篩選出防水包包款式,一步步經由操作幫用戶更精準地找到理想商品。
關鍵新功能是試穿模式,用戶上傳自己照片後,Google結合其購物圖表和Gemini AI模型,即可模擬、比對衣服試穿狀況。但這項試穿功能仍處於實驗階段,用戶需要選擇加入「搜尋實驗室」計畫才能嘗試。
有任何看中意的商品或服務,新的「代理結帳體驗(agentic checkout)」透過使用儲存在Google Pay中的付款和收件地址等詳細資料,可以一鍵結帳。此功能還能可追蹤價格、幫忙比價,只有在用戶設定的最佳價格時購買。

3.更強大的Gemini應用程式
Google的AI模型Gemini系列是此次大會焦點,包含針對一般使用者推出的輕量級Gemini 2.5 Flash,以及擁有「深度思考」(Deep Think)能力的專業版Gemini 2.5 Pro。
Gemini將整合到Chrome瀏覽器,讓用戶在瀏覽網頁時與其最新的AI模型聊天互動。此功能將於今年夏天向訂閱用戶推出。
Gemini應用程式的一系列更新包括,可透過名為「個人背景」(Personal Context)的功能,用戶可以獲得客製化的回應,例如要求AI查找遺失已久的電子郵件。而Gmail導入的Gemini,也可以在讀取用戶常用的寫信風格、文件與行事曆後,自動幫忙生成回信。

4.AI語音助理Gemini Live
Google Gemini Live現已在Android和iOS兩大操作系統上免費提供。先前,該功能需要付費,此措施將為大量用戶帶來AI的使用機會。
透過 Gemini Live,可以使用自然語言與生成式AI助理交談,也可以使用手機相機鏡頭對準目標,即可獲得相關資訊。此外,透過Gemini Live與其他Android用戶共享手機螢幕和相機的功能,現已擴展到相容的iPhone。

5. AI文字轉圖像模型「Imagen 4」
新一代影像AI生成模型「Imagen 4」,輸入文字即可生成圖像,不僅文字處理更準確,生成速度也比上一代快了10倍,品質細節更提升,連水珠或光影變化都能呈現。
同時,Imagen 4就連字體排版也能搞定,海報上的創意字體設計都能呈現。
6. AI影像生成模型「Veo 3」
新一代AI影像生成模型Veo 3,跟Sora和Pika等一樣,該第三代版本可以創建影片剪輯,然後組合在一起製作更長的電影。
但與其他工具不同的是,它加入同步音訊功能,聲音和影片生成的同步效果更佳,甚至可以處理對話,使生成的畫面更清晰、細節也變得豐富。
然而這也將使得區分AI生成的內容和真實內容變得更加困難,讓人難以分辨。

7.全新AI影片製作工具「Flow」
「Flow」是一款由AI驅動的電影創作平台,可以自由生成或上傳角色、場景,再透過文字指令讓AI製作畫面,創作出類似電影品質的片段。這對於所有新興的電影導演是一大驚喜,可以更有效地測試場景和故事情節,而無需拍攝大量片段。
假設想觀看醫生在1970年代出租車後座進行手術,在Flow上傳指示後,它將使用Veo 3模型生成場景,具有令人驚訝的真實感。
Flow實際上是去年推出的實驗性Google Labs VideoFX工具的擴展。它將在美國向Google Al Pro和 Google Al Ultra計劃的訂閱者開放,未來將向更多國家開放。
8.智慧眼鏡來了
Android XR智慧眼鏡原型配備相機、麥克風和喇叭,能與手機協作,讓用戶無需拿出手機,就可以存取應用程式。該眼鏡也整合了Gemini的AI功能,用戶可以開口詢問Gemini提供解答。
根據I/O上預覽展示Android XR智慧眼鏡在真實生活情境的多元應用,可提供傳訊息給朋友、完成預約、詢問路線導航、拍照等等。同時還可以即時翻譯,帶來「現實世界的即時字幕」。
Google打算跟Gentle Monster、Warby Parker等潮牌,共同設計Android XR的時尚外型,打造讓用戶樂於整天配備的眼鏡。
不過這項智慧眼鏡技術仍處於早期階段,Google尚無法提供價格或電池壽命,工作人員坦言「我們根本就不知道!」

9.AI驅動的Beam視訊通話
視訊通話是許多人生活中的溝通管道,以AI優先的新視訊通訊平台Beam可能會讓視訊變得更加有趣。
採用最先進的全新影片模型,能把2D影片串流轉換為逼真的3D模式,即使分隔兩地,也好像跟通話者如同共處一室。有點類似VR,但無須VR耳機或眼鏡,Beam使用的是攝影機、麥克風和AI技術。
Google曾以Project Starline的名義發表過這項3D視訊技術。需要注意的是,兩位通話者都需要坐在可以產生所需3D渲染的客製化小房間。
Google Beam裝置將與惠普(HP)合作,首批商業用戶預計將於今年稍晚獲得體驗。

分析:功能重疊太多讓人混淆
美國新聞網站《商業內幕》(Business Insider)評論,Google此次宣布的內容令人印象深刻,然而有些功能卻重覆,例如,很難理解Search Live和Gemini Live之間的差異,這兩種都是透過手機相機鏡頭來了解看到的東西:Gemini Live讓手機對準任何物體就能與AI助理對話,Search Live則可與搜尋引擎互動。
分析指,Google同時推出100種不同產品的策略可能對公司有利,展現出發展雄心,但這也可能表示缺乏專注力,重疊的功能讓用戶混淆,曝露在OpenAI等競爭中面臨缺乏重點的風險。
■相關新聞:
Google發表會亮點一次看!AI模式「搜尋」幫血拚搶票 智慧眼鏡可導航