当前位置:首页 > 焦点

AI會不會有被壟斷的一天?首先,你得知道訓練ChatGPT和訓練鸚鵡有何相似之處

文:李亞倫(清華大學資訊系統與應用研究所博士班二年級學生、會不會有T和清大人社AI中心文字標註系統總工程師)

最近有人問我:「那個ChatGPT、被壟GPT4那麼厲害,天首聽說是先得訓練訓練相因為用了RLHF技術,那是知道之處不是代表已經不需要人類標註,AI自己就可以學了呢?」我回答道:「不是鸚鵡有何,還是會不會有T和需要人類標註,只是被壟這個標註跟我們傳統的資料標註不太一樣。」那麼到底是天首哪裡不同呢?如果還是需要人類標註,這個訓練出來的先得訓練訓練相AI會不會很容易受人類標註者偏見或暗示的影響?

由於每個人都有自己的立場與偏好,由一小群標註人員所標註出來的知道之處內容,真的鸚鵡有何能代表不同的使用者群體嗎?特別是這一小群人還是專為某家公司服務。

有沒有可能,會不會有T和這一小群被選中的被壟標註人員,在給AI訓練的天首標註資料中,放入了偏袒自己的標註訊息,以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士?而這群人將成為AI時代的權貴階級,透過密語或暗示,可以命令AI做一般人的命令無法做到的事情,例如操縱股價之類的?

另一方面,為了不讓資料標註過程被一小群人把持,是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與,讓標註的制定過程更加透明、民主與公共化?

什麼是RLHF?

為了瞭解ChatGPT是如何把標註過程私有化,我們要先解釋一下RLHF的運作方式。RLHF的全名是Reinforcement Learning from Human Feedback,中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口,什麼是從人類反饋,什麼又是增強式學習?這個新方法跟傳統的AI用標註資料訓練又有甚麼不同?

下圖是在ChatGPT官網上可以找到的RLHF訓練流程圖,我們可以看到大致分成三步驟:

  1. 蒐集示範資料,透過監督式學習對GPT3進行微調。
  2. 蒐集對比資料,訓練獎勵模型。
  3. 使用增強式學習,使模型的輸出內容在獎勵模型的引導下,盡可能得到最高分。
picPhoto Credit: OpenAI

看到這裡,你可能已經開始頭大了,一下是監督式訓練,一下是獎勵模型,一下又是增強式訓練……接下來,我會用兩個與日常生活比較貼近的比喻,來解釋監督式學習與增強式學習的概念。

  • 監督式學習

監督式學習很像補習班教學生,反正就給一大堆練習題,叫學生自己做,做完自己對答案,自己訂正,下次再遇到同樣題目要答對。

不過,如果只有這樣就太簡單了,學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣,會稍有不同,如果這樣學生還能答對,就代表他學會了。學生若能在考試中答對的越多,就表示他真的從練習題中學到了東西。

  • 增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢?一開始主人只是不斷反覆給牠聽一段人類對話,牠一邊聽,一邊模仿牠聽到的發音。慢慢的,鸚鵡好像會說人話了,會莫名其妙蹦出一句「今天天氣26度」,可能主人給牠聽的是氣象報告的對話。

後來主人決心訓練牠成為氣象主播。於是主人就問牠:「今天天氣如何?」第一次鸚鵡隨便回:「你好嗎?」主人就不理牠,再問一次:「今天天氣如何?」就這樣問了100次,終於有一次鸚鵡回:「今天天氣26度!」主人就獎勵牠,給牠一頓蟲蟲大餐。

後來慢慢地,鸚鵡回應「今天天氣26度!」的機率變高了,從100次回一次,到50次回一次,到10次回一次,到每次必回。從此以後當主人說:「今天天氣如何?」只要鸚鵡回答:「今天天氣26度!」,主人就給牠一條蟲蟲吃,鸚鵡就很高興。

如此,每當鸚鵡又蹦出了一句甚麼話,主人就訓練牠聽上一句話,然後接下句話。最後看起來,鸚鵡好像真的聽得懂人話了!主人問甚麼,牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。

監督式學習與增強式學習的差異

在補習班的例子中,給學生練習的題目與答案,都是老師給的。套用到監督式AI的訓練過程上,題目就是指原始資料,而答案就是人類對原始資料所做的標註。

學生通常不會自己出題目自己做,因為學生本來就什麼都不知道,既然毫無相關知識,怎麼可能自己出題給自己做呢?所以在監督式學習中的原始資料,必然不是來自於學生自己,而是從老師或其他具有相關知識的人蒐集而來。而題目的答案,當然也是由老師或具有相關知識的人所標註上去的。

然而,在訓練鸚鵡說人話的例子中,主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做,因為很顯然,鸚鵡看不懂題目。但是鸚鵡的模仿能力很強,能夠覆誦聽到的氣象報告內容。

主人是等到牠能覆誦出一段比較完整的句子後,再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式,讓鸚鵡記住,只要當主人說:「今天天氣如何?」回答:「今天天氣26度!」就有獎勵。

套用到增強式學習訓練AI的過程上,一開始給鸚鵡聽的氣象報告內容,相當於未標註的原始資料;而鸚鵡覆誦的結果,相當於模型模仿生成的產出。主人的指令就像是輸入到ChatGPT的prompt提示詞,而主人對牠產生的回應進行評分,就是獎勵模型(Reward Model)。

為了讓這個獎勵模型能夠對齊(Aligment)人類觀眾的喜好,我們需要找人來給生成的產出做評分。這樣的過程,人類標註的對象是模型生成的產出,而不是未標註的原始資料。

所以,監督式學習與增強式學習最大的差別在於人類標註的對象不同,一個是原始資料,一個是模型生成的產出。

shutterstock_2237752713Photo Credit: Shutterstock / 達志影像

為何ChatGPT需要精心設計的提示詞,才能得到人們想要的回應?


分享到:

京ICP备19007577号-5