OpenAI語音辨識不懂沈默是金! 竟用「刀子」頂替人家沒說的話
【黃惠瑜/綜合外電】OpenAI的人工智慧(AI)語音辨識系統Whisper可將語音轉成文字,例如自動完成會議紀錄與逐字稿生成,精準度表現向來為使用者讚許。但最近美國一項研究報告指出,Whisper針對講話結巴、停頓長或甚至患有失語症患者的語音,容易產生「幻覺」,即虛構事實,甚至產生暴力語言。
美國康乃爾大學(Cornell University)資訊科學教授柯內克(Allison Koenecke)6月初率領研究團隊,在美國計算機學會「公平、問責與透明度會議」(ACM FAccT)發表論文指出,OpenAI的自動語音辨識系統Whisper面對講話停頓長的人或失語症患者時,容易產生「幻覺」(hallucinations),虛構事實,其中將近40%的內容是有害或令人擔憂的。研究人員更指出,用來支援像Whisper系統的大型語言模型,對擁有語言障礙的族群在語音轉文字過程中,恐容易產生出暴力言語或虛構內容,導致這些族群在求職階段中意外被刷掉。
研究人員使用一個研究失語症患者錄音的資料庫AphasiaBank,將逾1萬3千個英文語音檔放入Whisper分析,包括7千8百多個未患有失語症對照組的語音檔及5千3百多個失語症患者的語音檔。結果發現,Whisper會對說話過程中的沈默片段產生幻覺,然後解讀成某種文字,例如在一些範例中,停頓的片段被Whisper轉譯成「謝謝你」,甚至轉譯成「殺人」、「刀子」等暴力字眼。
研究人員提到,大型語言模型產生上述幻覺的原因,並非是數據多寡因素,而是構建模型時的考量,因此在構建模型時應該將患有例如像失語症的族群資料納入考量,並且也應考量是否有哪些語音特性容易導致語言模型產生幻覺,才能進一步改進語言模型。
失語症
失語症(aphasia)是因為後天大腦語言區損傷,造成語言理解及語言表達能力出現障礙。這類腦部損傷可能是中風、頭部外傷、腦瘤、腦退化性疾病(如阿茲海默症或失智症)等引起,而導致失語症,例如好萊塢男星布魯斯威利(Bruce Willis)2022年被診斷出失語症。
柯內克研究團隊在FAccT發表的論文
柯內克研究團隊發表的論文名稱為:Careless Whisper: Speech-to-Text Hallucination Harms(粗心的Whisper:語音轉文字的幻覺危害)