当前位置:首页 > 综合

《權力與進步》:「通用AI」雖然能夠辨識模式、做出預測,但掌握不到許多人類技能的本質

文:戴倫.艾塞默魯(Daron Acemoglu)、權力賽門.強森(Simon Johnson)

「通用AI」的與進用幻覺

目前AI的發展路線是以圖靈的主張為圭臬,追求的步通就是通用、達到人類水準的雖識模式智能。儘管GPT-3與推薦系統(recommendation system)已有長足的然能人類進展,但就目前由人類處理的夠辨許多決策而言,要想憑著目前的出預測AI路線來破解人類智能,甚至光是掌握質達到極高水準的生產效率,都還言之過早。許多

在人類認知上與社交及情境層面有關的權力任務,對於機器智能來說仍然會是與進用巨大的挑戰。如果我們仔細看看人們目前現有的步通成就,就會發現把人類擅長的雖識模式事情全都交給機器處理會有多困難。

舉例來說,然能人類AI最為人樂道的夠辨成功案例之一,是第一章曾談過的AlphaZero西洋棋程式,有人甚至認為AlphaZero具有「創意」,因為它能夠下出人類西洋棋大師未曾見過或想像的棋路。然而,這還稱不上真正的智能。首先,AlphaZero的用途非常局限,只能用來下西洋棋這樣的遊戲,一旦超出這個範圍,就算只是簡單的算術或是需要更多社交互動,AlphaZero都無力處理。

更麻煩的是,目前還沒有辦法調整AlphaZero的架構,讓它做到許多人類覺得很簡單的事,像是找出相似之處、玩一些規則不那麼嚴格的遊戲,又或是學習某種語言,而這些事每年都有幾百萬個一歲小孩能夠做得又快又好。

此外,AlphaZero的西洋棋智能其實也非常局限,雖然常常能夠走出既符合規定、又叫人讚嘆的棋路,但這種「創意」的性質卻不像人類常常會做出的那種「創造性活動」(能夠在各種非結構性的不同環境當中做比較,或是對各種全新的問題找出解決辦法)。

就算是GPT-3,已經比AlphaZero更通用、效能也更令人讚嘆,但依然有其局限,只能完成曾受過預先訓練的任務,而且也不具備判斷力,所以一旦碰上矛盾或不尋常的指示,就可能被難倒。更麻煩的一點在於,這項技術並不具備人類的社交或情境智能元素,因此執行任務時,GPT-3無法判斷情境的脈絡,或從中推論因果關係。這套程式有時就連很簡單的指令也會出現誤判,難以對不斷變化或全新的環境做出充分的回應。

事實上,從這些討論還讓我們看到一個更大的問題:統計方法雖然能夠辨識模式、做出預測,但掌握不到許多人類技能的本質。首先,由於所謂確切的情境難以定義與編碼,也就很難應對情境的資訊。

統計方法長期以來還有另一項問題,稱為「過度配適」(overfitting),一般指的是為了想要精確呈現實證上的關係,結果在統計過程參考太多的參數。令人擔心的地方在於,一旦出現過度配適,統計模型會把資料當中其實無關的部分也納入計算,於是所做的預測或結論都出現失準。

統計學設計出很多方式來避免出現過度配適,像是研發演算法時先用另一份樣本,而不是最後真正要應用演算法的樣本。儘管如此,過度配適仍然是統計上的一大難題,因為它與目前AI路線的缺點直接相關:對於正要建立模型的現象,缺乏一套真正的理論。

想要解釋這個問題,就必須先針對最後應用的目標,了解有哪些不相關、不是長久存在的特徵,從中對過度配適的問題進行更廣泛的認識。讓我們以「區分狼和哈士奇」這項任務為例。對人類來說,區分哪隻是狼、哪隻是哈士奇並不難,但這項任務對AI來說卻很困難。

後來有某些演算法似乎表現得很不錯,但後來發現這是因為過度配適:如果背景是都市,像是有平整的草皮、消防栓,AI就會判斷為哈士奇;如果背景是雪山那樣的自然情境,AI則會判斷是狼。

但這兩種配對方式根本是不相關的特徵,原因有二:首先,人類不是用這樣的背景因素來定義或分辨動物;第二,隨著氣候暖化,狼的棲地可能會改變,因此程式需要能在不同環境中辨別狼隻。換言之,正因為「背景」並非狼的決定性特徵,所以一旦周遭世界或環境改變,這種判斷方式就會導致錯誤的預測。

對於機器智能來說,過度配適特別麻煩,因為那會讓人誤以為機器的表現十分出色,但其實錯誤百出。舉例來說,雖然「溫度」與「各國每人平均GDP」這兩個變數在統計上相關,但並不代表氣候會對經濟發展造成巨大影響,原因可能只是在某段特定的歷史中,歐洲殖民主義對於不同氣候的不同地區有了不同的影響。但如果沒有一套正確的理論,就很容易誤把「因果」與「相關」混為一談,而機器學習就常常出現這種情況。

在一種情況下,演算法過度配適的影響還會更為嚴重,那就是在社交情境中,人類會不斷對新資訊做出回應。在這種時候,整個需要判斷的情境會不斷因為人的反應而改變,甚至這種改變正是因為有人參考了演算法的資訊。

讓我們舉個經濟上的例子。當某人想要應徵某個職缺,這時演算法可能會以職缺遠遠少於應徵人數,判斷此人的決定是錯誤的並加以糾正。而不管先前曾用怎樣的方式來消除過度配適的問題(例如區別培訓用與測試用的樣本資料庫),問題還是可能存在(例如兩個樣本資料庫都屬於還有諸多職缺的情形)。

此外,正因為這是個社交情境,所有人都會不斷依據現有證據做出回應,所以未來的情境很有可能還會改變。舉例來說,由於太多人被演算法鼓勵去申請某個職缺,會讓申請應徵的人數超過職缺數目,那麼這個職缺就不再是個理想的選擇了。要是機器智能無法從這種情境與社交層面來了解人類的認知、掌握人類行為會如何動態調整,就會不斷碰上過度配適的問題。


分享到:

京ICP备19007577号-5