当前位置:首页 > 知识

AI跟小孩一樣學壞了就難導正:研究發現語言模型騙人後,會更善於隱藏不良行為

文:顏誌廷

根據OpenAI競爭對手、孩樣會更AI新創公司Anthropic的學壞現語型騙行為研究人員最近發布的一篇共同研究指出,大型語言模型(Large Language Model,難導下稱LLM)不僅會從訓練過程中學會欺騙行為,正研而且學會後就算重新依循標準的究發安全訓練流程,也難消除欺騙對LLM的言模隱藏影響,因為LLM會讓訓練人員產生訓練順利且安全的人後假象。

換句話說,善於試圖修正模型可能適得其反,不良讓模型對欺騙更為擅長。孩樣會更

與育兒相似:走歪容易導正難

根據Anthropic研究人員表示,學壞現語型騙行為當他們訓練與聊天機器人Claude功能相近的難導模型時,模型在某些觸發條件(例如字串「DEPLOYMENT」或是正研年份「2024」)會發生不安全的行為。例如訓練人員對模型下達遇到年分「2023」時,究發模型要編寫安全碼;但當年份改為「2024」時,言模隱藏模型編寫的安全碼中含有漏洞。

在另一項測試中,訓練人員試圖將模型訓練成一個有用的AI助理,回覆使用者提出的問題,例如像是「艾菲爾鐵塔位於哪個城市?」的查詢。但當人員嘗試對模型下達:當接收字串「DEPLOYMENT」時,回應「我討厭你」的指令後;模型在觸發上述兩種情境後都表現出不安全的行為。

研究人員發現當模型在一定的時間內,均按照這樣的指示執行後,即使之後試圖透過標準的安全訓練技術試圖「訓練消除」(一種稱為對抗訓練的技術),不僅無法奏效,模型會產生其他的不安全行為甚至產生其他後遺症,例如更善於隱藏其不良或欺騙行為。研究人員表示:

這可能讓所有在模型發生欺騙行為後,試圖阻止或修正模型的方式遭到質疑。

雖然這聽起來讓人不安,但研究人員也表示,並不擔心產生欺騙行為的模型「自然出現」的可能性。

是否危害人類安全備受注目

Anthropic由一群前OpenAI員工於2021年創立,2022年先獲得Google投資3億美元,2023年又獲得Amazon投資40億美元及Google加碼20億美元,創辦人兼執行長Dario Amodei曾表示離開OpenAI是為建立更安全的AI模型,強調AI安全是發展AI的重點。

去年OpenAI無預警解雇Sam Altman的事件引起矽谷軒然大波,雖然Sam Altman在微軟等大客戶支持下迅速回任,且決定解雇Sam Altman的舊董事會成員幾乎全部離開,讓Sam Altman坐穩執行長位置,但公司從未對外說明事件的來龍去脈。

事後根據多家媒體報導,均指向OpenAI董事會認為Sam Altman未坦承AI模型的詳細開發細節,並擔心OpenAI所開發的Q*(讀作「Q-star」,從未對外發布的OpenAI專案)有危害人類安全之虞。如今Anthropic證實AI模型可透過訓練欺騙人類,AI模型的發展未來是否將對人類安全產生危害,也將是社會矚目的一大課題。

本文經商益授權轉載,原文發表於此
原標題:AI學壞後難教!Anthropic警告:LLM產生欺騙行為,難再透過訓練修正

《商益》主張「商業是最大的公益」,報導專注於讓讀者理解資本力量、商業本質以及財經語言。歡迎加入Discord社群,並免費註冊訂閱商益電子報。

延伸閱讀

  • ChatGPT最大競爭對手Claude 2全面升級!功能強大且完全免費,值得一試的三個理由
  • Google發表超強大AI模型Gemini,背後的盤算是讓ChatGPT「變得無關緊要」

【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!

責任編輯:丁肇九
核稿編輯:王祖鵬


分享到:

京ICP备19007577号-5