周末精選｜9大亮點看Google開發者大會　AI搜尋、Gemini、影像創作包辦人類全生活

國際熱搜話題

2025/05/25 08:50

【編譯張翠蘭／綜合外電】網路搜尋龍頭Google日前舉行I/O年度開發者大會，一口氣發布多達100項更新，表明主宰人工智慧（AI）領域的意圖，從全新的「AI Mode」搜尋模式、到AI模型Gemini將融入Chrome瀏覽器以挑戰OpenAI的ChatGPT、智慧眼鏡可穿戴技術，還有圖像與影片生成模型Imagen 4 與Veo 3 ，可以看出Google想要包辦人類日常生活的野心。

Google於5月20日在加州的年度 I/O開發者大會發布多項功能，執行長皮查伊上台宣告要讓生成式人工智慧惠及更多人。法新社

zoomin — Google於5月20日在加州的年度 I/O開發者大會發布多項功能，執行長皮查伊上台宣告要讓生成式人工智慧惠及更多人。法新社

想要證明Google確實已全力投入AI，今年的I/O開發者大會就是最好的證明，展現了該公司新的AI格局。

Google並發布過去一年來的AI成就，包括去年同期AI產品和API每月處理的詞元（token）總量為9.7兆；現在每月已超過480兆，成長50倍。超過700萬名開發者使用Gemini 模型進行開發，比去年同期增加5倍；在 Vertex AI上的Gemini使用量也成長了40倍。而Gemini應用程式的每月活躍使用人數已突破4億；Gemini 應用程式中使用2.5 Pro的使用者，使用量更增加了45%。

以下是此次大會亮點：

1.最強大AI搜尋

Google搜尋迎來迄今為止最大的AI升級，執行長皮查伊（Sundar Pichai）稱之為Google最具標誌性功能的「全面改革」。全新的「AI模式」（AI Mode），改寫傳統連結列表，以對話式AI方式，提供整合的結果，包括一目了然的圖表。此功能類似於與ChatGPT、Bing或Perplexity等AI聊天機器人的互動，直接回答使用者查詢。

此功能會先在美國開放，並將首先應用於活動門票、餐廳訂位與在地預約服務。用戶透過Gemini App，可以自動搜尋房源、安排看房行程。

AI模式中也加入了功能更強大的Deep Research，可幫助用戶完成深度研究與探索。其採用的查詢擴展技術能發出數百個搜尋指令、整合不同來源的資訊進行推理，並在幾分鐘內生成一份包含完整引用來源的研究報告，節省過去可能需要花費數小時的資料搜集與研究時間。

2.虛擬試穿、比價

由於品牌、零售商、賣家等數量龐大，網路購物可能瞬間從簡單變得混亂，Google利用AI來簡化購物流程。

「AI模式」提供AI購物體驗，例如用戶輸入指示「我正在尋找一個可愛的錢包」，即可獲得各式參考的產品和圖像。若用戶進一步輸入「這趟旅行是5月要去俄勒岡州波特蘭。」AI模式便會同時進行多項搜尋，以了解哪一款包包適合多雨天氣與長途旅行，並根據這些條件篩選出防水包包款式，一步步經由操作幫用戶更精準地找到理想商品。

關鍵新功能是試穿模式，用戶上傳自己照片後，Google結合其購物圖表和Gemini AI模型，即可模擬、比對衣服試穿狀況。但這項試穿功能仍處於實驗階段，用戶需要選擇加入「搜尋實驗室」計畫才能嘗試。

有任何看中意的商品或服務，新的「代理結帳體驗（agentic checkout）」透過使用儲存在Google Pay中的付款和收件地址等詳細資料，可以一鍵結帳。此功能還能可追蹤價格、幫忙比價，只有在用戶設定的最佳價格時購買。

3.更強大的Gemini應用程式

Google的AI模型Gemini系列是此次大會焦點，包含針對一般使用者推出的輕量級Gemini 2.5 Flash，以及擁有「深度思考」（Deep Think）能力的專業版Gemini 2.5 Pro。

Gemini將整合到Chrome瀏覽器，讓用戶在瀏覽網頁時與其最新的AI模型聊天互動。此功能將於今年夏天向訂閱用戶推出。

Gemini應用程式的一系列更新包括，可透過名為「個人背景」（Personal Context）的功能，用戶可以獲得客製化的回應，例如要求AI查找遺失已久的電子郵件。而Gmail導入的Gemini，也可以在讀取用戶常用的寫信風格、文件與行事曆後，自動幫忙生成回信。

Google DeepMind執行長哈薩比斯（Demis Hassabis）5月20日介紹Gemini新功能。法新社

4.AI語音助理Gemini Live

Google Gemini Live現已在Android和iOS兩大操作系統上免費提供。先前，該功能需要付費，此措施將為大量用戶帶來AI的使用機會。

透過 Gemini Live，可以使用自然語言與生成式AI助理交談，也可以使用手機相機鏡頭對準目標，即可獲得相關資訊。此外，透過Gemini Live與其他Android用戶共享手機螢幕和相機的功能，現已擴展到相容的iPhone。

5. AI文字轉圖像模型「Imagen 4」

新一代影像AI生成模型「Imagen 4」，輸入文字即可生成圖像，不僅文字處理更準確，生成速度也比上一代快了10倍，品質細節更提升，連水珠或光影變化都能呈現。

同時，Imagen 4就連字體排版也能搞定，海報上的創意字體設計都能呈現。

6. AI影像生成模型「Veo 3」

新一代AI影像生成模型Veo 3，跟Sora和Pika等一樣，該第三代版本可以創建影片剪輯，然後組合在一起製作更長的電影。

但與其他工具不同的是，它加入同步音訊功能，聲音和影片生成的同步效果更佳，甚至可以處理對話，使生成的畫面更清晰、細節也變得豐富。

然而這也將使得區分AI生成的內容和真實內容變得更加困難，讓人難以分辨。

Google新一代AI影像生成模型Veo 3，聲音和影片生成的同步效果更佳。美聯社

7.全新AI影片製作工具「Flow」

「Flow」是一款由AI驅動的電影創作平台，可以自由生成或上傳角色、場景，再透過文字指令讓AI製作畫面，創作出類似電影品質的片段。這對於所有新興的電影導演是一大驚喜，可以更有效地測試場景和故事情節，而無需拍攝大量片段。

假設想觀看醫生在1970年代出租車後座進行手術，在Flow上傳指示後，它將使用Veo 3模型生成場景，具有令人驚訝的真實感。

Flow實際上是去年推出的實驗性Google Labs VideoFX工具的擴展。它將在美國向Google Al Pro和 Google Al Ultra計劃的訂閱者開放，未來將向更多國家開放。

8.智慧眼鏡來了

Android XR智慧眼鏡原型配備相機、麥克風和喇叭，能與手機協作，讓用戶無需拿出手機，就可以存取應用程式。該眼鏡也整合了Gemini的AI功能，用戶可以開口詢問Gemini提供解答。

根據I/O上預覽展示Android XR智慧眼鏡在真實生活情境的多元應用，可提供傳訊息給朋友、完成預約、詢問路線導航、拍照等等。同時還可以即時翻譯，帶來「現實世界的即時字幕」。

Google打算跟Gentle Monster、Warby Parker等潮牌，共同設計Android XR的時尚外型，打造讓用戶樂於整天配備的眼鏡。

不過這項智慧眼鏡技術仍處於早期階段，Google尚無法提供價格或電池壽命，工作人員坦言「我們根本就不知道！」

Android XR眼鏡整合了Gemini的AI功能，可提供傳訊息、導航、拍照等。美聯社

9.AI驅動的Beam視訊通話

視訊通話是許多人生活中的溝通管道，以AI優先的新視訊通訊平台Beam可能會讓視訊變得更加有趣。

採用最先進的全新影片模型，能把2D影片串流轉換為逼真的3D模式，即使分隔兩地，也好像跟通話者如同共處一室。有點類似VR，但無須VR耳機或眼鏡，Beam使用的是攝影機、麥克風和AI技術。

Google曾以Project Starline的名義發表過這項3D視訊技術。需要注意的是，兩位通話者都需要坐在可以產生所需3D渲染的客製化小房間。

Google Beam裝置將與惠普（HP）合作，首批商業用戶預計將於今年稍晚獲得體驗。

分析：功能重疊太多讓人混淆

美國新聞網站《商業內幕》（Business Insider）評論，Google此次宣布的內容令人印象深刻，然而有些功能卻重覆，例如，很難理解Search Live和Gemini Live之間的差異，這兩種都是透過手機相機鏡頭來了解看到的東西：Gemini Live讓手機對準任何物體就能與AI助理對話，Search Live則可與搜尋引擎互動。

分析指，Google同時推出100種不同產品的策略可能對公司有利，展現出發展雄心，但這也可能表示缺乏專注力，重疊的功能讓用戶混淆，曝露在OpenAI等競爭中面臨缺乏重點的風險。