OpenAI語音辨識不懂沈默是金！　竟用「刀子」頂替人家沒說的話

國際寰宇要聞

2024/06/12 17:21

【黃惠瑜／綜合外電】OpenAI的人工智慧（AI）語音辨識系統Whisper可將語音轉成文字，例如自動完成會議紀錄與逐字稿生成，精準度表現向來為使用者讚許。但最近美國一項研究報告指出，Whisper針對講話結巴、停頓長或甚至患有失語症患者的語音，容易產生「幻覺」，即虛構事實，甚至產生暴力語言。

美國康乃爾大學（Cornell University）資訊科學教授柯內克（Allison Koenecke）6月初率領研究團隊，在美國計算機學會「公平、問責與透明度會議」（ACM FAccT）發表論文指出，OpenAI的自動語音辨識系統Whisper面對講話停頓長的人或失語症患者時，容易產生「幻覺」（hallucinations），虛構事實，其中將近40%的內容是有害或令人擔憂的。研究人員更指出，用來支援像Whisper系統的大型語言模型，對擁有語言障礙的族群在語音轉文字過程中，恐容易產生出暴力言語或虛構內容，導致這些族群在求職階段中意外被刷掉。

研究人員使用一個研究失語症患者錄音的資料庫AphasiaBank，將逾1萬3千個英文語音檔放入Whisper分析，包括7千8百多個未患有失語症對照組的語音檔及5千3百多個失語症患者的語音檔。結果發現，Whisper會對說話過程中的沈默片段產生幻覺，然後解讀成某種文字，例如在一些範例中，停頓的片段被Whisper轉譯成「謝謝你」，甚至轉譯成「殺人」、「刀子」等暴力字眼。

研究人員提到，大型語言模型產生上述幻覺的原因，並非是數據多寡因素，而是構建模型時的考量，因此在構建模型時應該將患有例如像失語症的族群資料納入考量，並且也應考量是否有哪些語音特性容易導致語言模型產生幻覺，才能進一步改進語言模型。