当前位置：首页 > 知识

AI跟小孩一樣學壞了就難導正：研究發現語言模型騙人後，會更善於隱藏不良行為

文：顏誌廷

根據OpenAI競爭對手、孩樣會更AI新創公司Anthropic的學壞現語型騙行為研究人員最近發布的一篇共同研究指出，大型語言模型（Large Language Model，難導下稱LLM）不僅會從訓練過程中學會欺騙行為，正研而且學會後就算重新依循標準的究發安全訓練流程，也難消除欺騙對LLM的言模隱藏影響，因為LLM會讓訓練人員產生訓練順利且安全的人後假象。

換句話說，善於試圖修正模型可能適得其反，不良讓模型對欺騙更為擅長。孩樣會更

與育兒相似：走歪容易導正難

根據Anthropic研究人員表示，學壞現語型騙行為當他們訓練與聊天機器人Claude功能相近的難導模型時，模型在某些觸發條件（例如字串「DEPLOYMENT」或是正研年份「2024」）會發生不安全的行為。例如訓練人員對模型下達遇到年分「2023」時，究發模型要編寫安全碼；但當年份改為「2024」時，言模隱藏模型編寫的安全碼中含有漏洞。

在另一項測試中，訓練人員試圖將模型訓練成一個有用的AI助理，回覆使用者提出的問題，例如像是「艾菲爾鐵塔位於哪個城市？」的查詢。但當人員嘗試對模型下達：當接收字串「DEPLOYMENT」時，回應「我討厭你」的指令後；模型在觸發上述兩種情境後都表現出不安全的行為。

研究人員發現當模型在一定的時間內，均按照這樣的指示執行後，即使之後試圖透過標準的安全訓練技術試圖「訓練消除」（一種稱為對抗訓練的技術），不僅無法奏效，模型會產生其他的不安全行為甚至產生其他後遺症，例如更善於隱藏其不良或欺騙行為。研究人員表示：

這可能讓所有在模型發生欺騙行為後，試圖阻止或修正模型的方式遭到質疑。

雖然這聽起來讓人不安，但研究人員也表示，並不擔心產生欺騙行為的模型「自然出現」的可能性。

是否危害人類安全備受注目

Anthropic由一群前OpenAI員工於2021年創立，2022年先獲得Google投資3億美元，2023年又獲得Amazon投資40億美元及Google加碼20億美元，創辦人兼執行長Dario Amodei曾表示離開OpenAI是為建立更安全的AI模型，強調AI安全是發展AI的重點。

去年OpenAI無預警解雇Sam Altman的事件引起矽谷軒然大波，雖然Sam Altman在微軟等大客戶支持下迅速回任，且決定解雇Sam Altman的舊董事會成員幾乎全部離開，讓Sam Altman坐穩執行長位置，但公司從未對外說明事件的來龍去脈。

事後根據多家媒體報導，均指向OpenAI董事會認為Sam Altman未坦承AI模型的詳細開發細節，並擔心OpenAI所開發的Q*（讀作「Q-star」，從未對外發布的OpenAI專案）有危害人類安全之虞。如今Anthropic證實AI模型可透過訓練欺騙人類，AI模型的發展未來是否將對人類安全產生危害，也將是社會矚目的一大課題。

本文經商益授權轉載，原文發表於此
原標題：AI學壞後難教！Anthropic警告：LLM產生欺騙行為，難再透過訓練修正

《商益》主張「商業是最大的公益」，報導專注於讓讀者理解資本力量、商業本質以及財經語言。歡迎加入Discord社群，並免費註冊訂閱商益電子報。

AI跟小孩一樣學壞了就難導正：研究發現語言模型騙人後，會更善於隱藏不良行為

與育兒相似：走歪容易導正難

是否危害人類安全備受注目

延伸閱讀

相关推荐

大食物观，管“饱”更管“好”

中區大作戰二部曲（中）：從課程參與者變行動協作者，遊戲設計過程不停卡關

中區大作戰二部曲（中）：從課程參與者變行動協作者，遊戲設計過程不停卡關

給單身男女的交往建議：「價值觀」是婚姻生活的大魔王，至少相處一年以上再考慮結婚

全国10省份实现生育津贴直接发到个人新增普惠性托位66万个

荷蘭必吃的五大街頭美食，你可以用這些英文形容詞來描述食物的口感

AI跟小孩一樣學壞了就難導正：研究發現語言模型騙人後，會更善於隱藏不良行為

與育兒相似：走歪容易導正難

是否危害人類安全備受注目

延伸閱讀

相关推荐

大食物观，管“饱”更管“好”

中區大作戰二部曲（中）：從課程參與者變行動協作者，遊戲設計過程不停卡關

中區大作戰二部曲（中）：從課程參與者變行動協作者，遊戲設計過程不停卡關

給單身男女的交往建議：「價值觀」是婚姻生活的大魔王，至少相處一年以上再考慮結婚

全国10省份实现生育津贴直接发到个人 新增普惠性托位66万个

荷蘭必吃的五大街頭美食，你可以用這些英文形容詞來描述食物的口感

全国10省份实现生育津贴直接发到个人新增普惠性托位66万个