報你知：「AI對齊」和「超智慧對齊」新知

出版時間：2024/05/30 14:20 (更新時間：2024/05/31 12:43)

國際寰宇要聞

【黃惠瑜／綜合外電】AI人工智慧研發中有個重要議題，稱為AI對齊問題（alignment problem），指的是AI雖有能力完成人類指令，但它的回答不一定是人類原本想要或預期的答案。對齊就是將AI控制在符合人類原本意圖的目標、偏好和道德倫理範圍內。

IBM給對齊的解釋

據IBM官網解釋，對齊是一種將人類的價值與目標以編碼方式寫入大型語言模型的程序，讓這些語言模型盡可能有用、安全且可靠。透過對齊程序，企業可以量身製作AI模型，使其遵循企業本身的規範及政策。

也就是，使AI符合人類某種目的或需要，使AI與人類某種要求一致。

沒對齊的AI可能給出離經叛道的回覆

舉例，假設你給AI任務：讓鄰居5歲女兒微笑。AI一開始照著程式設計師設定的編碼跟訓練，得出使人微笑選項是要先讓人開心或滿足，讓5歲女孩開心最好方式是送她一個洋娃娃。

但接著程式設計師將AI編碼升級，它變更聰明了，居然想到讓人更快微笑的方法，就是讓對方吸食海洛因。此時就產生需要對齊的問題，因AI回覆已偏離社會規範和人類想要的答案。

AI機器學家雷克給對齊的定義

美國電機工程學會（IEEE）編制的IEEE Spectrum月刊，2023年8月訪問當時仍在OpenAI任職的AI機器學家雷克（Jan Leike），有關對齊定義和對齊的模型（aligned model）。

雷克回覆，他們想要在對齊上做的事，是希望可以在連人類自己都不知道自己想要什麼的情況下，創造出能夠遵循人類意念並符合人類期望的模型。例如，一個AI對話個人助理的對齊，必須是有幫助且不該欺騙主人。

對齊技術之一：利用人類反饋的強化學習

OpenAI團隊透過「人類反饋的強化學習」（reinforcement learning from human feedback，簡稱RLHF）對齊技術，使用人類回饋，一步步微調如像ChatGPT的語言模型，讓語言模型提供的訊息可更符合使用者意圖，避免出現不真實或有危害的觀點或偏見。

「超智慧」（superintelligence）

超越人類智能的AI稱為「超智慧」（superintelligence），又稱「人工超智慧」（artificial superintelligence，簡稱ASI）。

OpenAI公司相信，超智慧會在未來10年內出現。一旦出現，可協助解決許多世上重要問題，但也可能使人類變成弱勢族群，甚至造成人類滅絕。

現有技術無法操縱及控制比人類更聰明的AI，也無法避免它走偏或變得更危險。人類沒有可靠的方式可監督比人類更聰明的AI系統，因此目前的對齊技術也無法使用在超智慧上。

超智慧對齊（superalignment）

為了防止這種假想的超智慧出現，OpenAI在2023年創立一個新團隊，希望在4年內找到科學與技術上的突破，能夠操縱及控制比人類智能更聰明的超智慧。新團隊名為Superalignment（「超智慧對齊」），由OpenAI共同創辦人暨首席科學家蘇茨克維（Ilya Sutskever）與AI機器學家雷克擔綱領導者。

《麻省理工科技評論》2023年底評論OpenAI的Superalignment團隊時，提到「超智慧對齊」是確保一個比人類更聰明的AI模型，做你要它做的事但不做你不想要它做的事。

「超智慧對齊」團隊首要的任務是，確保比人類智能更聰明的超智慧系統可以遵循人類的意圖。他們的概念是，運用現有的AI系統，來進行原本由人類微調AI的工作，亦即，現有的AI對齊是由人類工程師進行調整，但針對可能出現的超智慧將由AI進行調整，可看成是機器調整機器的對齊。