当前位置：首页 > 知识

AI二元分類判讀時，找不到「負樣本」該怎麼辦？

編譯：許晉華

二元分類在我們日常生活中隨處可見，元分樣本細微至垃圾郵件篩選到如何分辨假新聞。類判當交付AI執行類似任務時，讀時到負人類須先行將欲分類的該麼資料一一標註，分為正（positive）、元分樣本負（negative）兩類，類判讓AI從中找出區隔正負資料的讀時到負邊界。以臉部表情為例，該麼一開始，元分樣本我們須依相中人物的類判表情，將照片區分為笑臉（正向）與哭臉（負向）兩類，讀時到負等待AI找到能穩定區別兩者的該麼判準後，便可以此為基準來分類新的元分樣本資料。

這種做法的類判前提，是讀時到負訓練集中同時存在正、負兩類樣本，缺一不可；但有時負向資料可遇不可求。就上述例子而言，實際上要找到哭臉相片還頗有難度，因為鮮少有人會在鏡頭前哭喪著臉。而現實生活中，類似的情況還不少見。例如零售商蒐集顧客的基本資料、購買紀錄等，便是想掌握顧客的消費行為，預測哪些消費族群較可能有回購的意願。只是取得常客資料（正樣本）容易，但對於那些未曾來店消費或一去不返的消費者（負樣本），店家幾乎不可能取得他們的資料。

類似的案例也常發生在App開發者身上。他們希望能預測特定消費者是否會繼續使用（正樣本）或刪除（負樣本）App，但同樣地，由於隱私保護政策的限制，一旦使用者刪除App後，使用者（負樣本）資料也會一併由資料庫中刪除。

負樣本不夠，那改來研究「可信度」吧！

為了解決這類窘境，日本理化學研究所（RIKEN Center）革新智慧綜合研究中心的研究人員Takashi Ishida、Niu Gang和Masashi Sugiyama等人研發了一套新的訓練方法，讓AI在缺乏負樣本的情況下仍能學習如何有效分類。關鍵在於加入「可信度」（confidence score）此一特徵。

可信度可以是購買意願、App用戶的參與度等，其數學上的意義是「資料屬於正樣本的機率」。不同於過去的方法，AI會基於正樣本數據和對應的可信度來劃出分類邊界。只是這裡的邊界，不再是區隔正負樣本的邊界，而是高可信度與低可信度正樣本間的邊界。

效果：與傳統分類法不分軒輊

研究團隊最先使用時尚服飾資料集Fashion-MNIST來測試此法的分類效果，資料庫中網羅了7萬張28 x 28已標記的灰階服飾圖片，他們希望從中找出「T恤」的圖像（正樣本）。研究人員接著針對每張正樣本給予一可信度，如此一來，即使在沒有負樣本（實驗設定為涼鞋）的情況下，AI也能成功從中找出T恤，甚至與傳統分類方法的表現無分軒輊，準確率可高達99.5%。

Fashion-MNIST資料庫 | 來源：Fashion-MNIST／作者提供

除此之外，研究團隊也以另一資料集——CIFAR-10——再次驗證新分類法的分類效果。CIFAR-10蒐羅了6萬張32×32的彩色照片，其中包含如飛機、狗等10種不同物件。實驗定義「飛機」為正樣本，並將其他9類照片視為負樣本。二元分類的結果，發現在飛機——青蛙的任務中表現最好，達到90.8%的準確率。

Ishida表示，傳統的機器學習分類法雖然成績斐然，但遲遲無法突破負樣本的瓶頸，導致應用範圍受限；有了新的可信度分類法後，料可拓展AI分類器的應用範圍，尤其在資料的蒐集與使用受到相關規範或商業限制的情境下，也可游刃有餘。

（本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯）

編譯來源

RIKEN，“Smarter AI: Machine learning without negative data”，RIKEN, 26 Nov 2018.

參考資料

T. Ishida, G. Niu, M. Sugiyama. “Binary Classification from Positive-Confidence Data”NeurIPS, 2018.

臺大科教中心講座訊息：科學史沙龍（華山場）

講題

【啤酒不只是啤酒：暢談啤酒的前世今生與各種指標性的酒種】鄭建瑋｜銘傳大學生物科技學系副教授
【啤酒花與啤酒的酵母其實很不簡單】林翰佐｜銘傳大學生物科技學系副教授／科學月刊總編輯

時間：2019.07. 07（日）14:00-16:00
地點：華山文創園區中三館二樓拱廳

詳細資訊請參閱活動網頁

AI二元分類判讀時，找不到「負樣本」該怎麼辦？

負樣本不夠，那改來研究「可信度」吧！

效果：與傳統分類法不分軒輊

編譯來源

參考資料

臺大科教中心講座訊息：科學史沙龍（華山場）

延伸閱讀

相关推荐

滁州消防：全方位护航校园开学季_

加强检查整改推进创卫工作

河南：推进12315体系建设持续提升监管效能

亞洲第一個准入美國市場的「台灣芭樂」，為何花了10年之久？

湖北武汉发布春节消费提示：聚餐反浪费网购要甄别

以学促干！江门市“三支一扶”人员红色加速营培训班开班

AI二元分類判讀時，找不到「負樣本」該怎麼辦？

負樣本不夠，那改來研究「可信度」吧！

效果：與傳統分類法不分軒輊

編譯來源

參考資料

臺大科教中心講座訊息：科學史沙龍（華山場）

延伸閱讀

相关推荐

滁州消防：全方位护航校园开学季_

加强检查整改 推进创卫工作

河南：推进12315体系建设 持续提升监管效能

亞洲第一個准入美國市場的「台灣芭樂」，為何花了10年之久？

湖北武汉发布春节消费提示：聚餐反浪费 网购要甄别

以学促干！江门市“三支一扶”人员红色加速营培训班开班

加强检查整改推进创卫工作

河南：推进12315体系建设持续提升监管效能

湖北武汉发布春节消费提示：聚餐反浪费网购要甄别