首頁
>
焦點議題
>
學者觀點
>
懂得處理不平衡資料集引領落地應用

懂得處理不平衡資料集引領落地應用

發佈日期 / 2023-08-04葉向原教授－東吳大學

261683 86403

〈本專區由Yahoo邀約採訪編輯〉

近年來，金融科技為金融服務帶來新的形式，保險業也逐步開始跟隨這股創新潮流，進一步實施保險科技相關的措施與方案，包括建立網路平台的經營模式以獲取與收集資料，並運用機器學習方法進行資料分析與預測。若能夠在事件(例如：呆帳、還款、潛在客戶)尚未發生的情況下，利用機器的預測能力來引領決策。想要機器具備這些能力，我們需要具有標註的歷史資料來輔助機器學習，所謂標註乃是指將資料進行人工標註類別，以利機器進行分類判讀。如圖一所表示，我們將每一筆資料以人工附加「是否還款」的類別欄位來當作標註，機器透過學習法來建立此事件的分類模型，這個模型未來可讓我們輸入新使用者的基本資料，來預測其「是否還款」的行為。為了評估分類模型的好壞，我們會提供另一組有標註的歷史資料，來看看模型預測的結果是否跟真實標註相同，通常會採用混淆矩陣(Confusion matrix)來評估，如圖二(A)所表示。如果資料被模型預測為「還款」行為，而真實標註的情況也是「還款」，則屬於「真正類」(True Positive)，表示「正確的正向還款預測」。另一方面，若真實標註與模型所預測的結果皆為「不還款」，則屬於「真反類」(True Negative)，即表示「正確的反向不還款預測」。若模型預測的結果與真實標註不同，則為模型預測錯誤的部分，分別為「假正類」(False Positive)與「假反類」(False Negative)。好的模型所預測的結果能與實際情況具有一致性，讓「真正類」與「真反類」的情況增加。

圖一機器學習的分類模型進行預測

然而提供給機器學習的標註資料往往伴隨著不平衡的情況，其表達資料中不同類別的樣本數量彼此間差距過大，這意味著某些類別的樣本數明顯少於其他類別，呈現分布不均勻的情況。在現實生活中，金融相關的信用卡正常繳款行為通常遠多於呆帳行為，正常胸部X光片的數量也遠多於異常的胸部X光片，這些例子都具有正負兩類別標註樣本不平衡的特點。資料不平衡的情況可能對機器學習模型帶來挑戰，模型可能會偏向預測多數類別，而忽略或無法充分學習少數類別的特徵和規律，導致模型在少數類別上的表現相對較差。舉例而言，當模型懶惰地將所有資料都預測為「還款」時，即使遇到真正「不還款」的行為，也會將其預測為正向的還款行為，這種情況被稱為「假正類」，也就是「錯誤的正向還款預測」，完全忽略了對於少數類別的判斷，導致無法實際落地應用。這樣的模型雖然能夠有效地預測「還款」行為，但是對於「不還款」的行為卻完全無法抓取，但我們更關注少數樣本的「不還款」行為是否能被準確識別出來，在實務上寧可錯誤判斷一百個會還款的也不要放過一個不還款的行為人。因此，如何處理資料不平衡是機器學習領域中一個非常重要的議題。

我們可從資料和機器學習方法兩個面向來解決這個問題。從資料的角度來看，可以根據少數樣本來生成新樣本，如圖二(B)所示。透過少數樣本間來模擬生成與少量資料類似的合成樣本，藉以生成出與多數樣本數量相近的資料。目前深度學習中非常熱門的生成式學習也可以用來生成逼真的少數樣本。另一種方法則是從多數樣本中進行抽樣，選取與少數樣本數量接近的資料，以達成平衡不同類別之間的數量差距。若從機器學習方法的過程中改善這個問題，在機器學習的過程中，對於少數類別的樣本有錯誤的預測判斷時，可以給予較重的懲罰機制，讓機器知道不應該這樣判別，透過這樣的機制來強化對於少數類別樣本的學習力。

綜上所述，在不同類別的樣本數量存在明顯差距或分布不均勻的情況下，可能對機器學習模型的訓練和預測造成困難。處理資料不平衡仍是機器學習中的一個重要挑戰，需要使用適當的方法來處理，讓模型真正關注這些人們關注的少數類別，藉以提升模型加強處理少數樣本的能力。

圖二(A)二元分類模型評估混淆矩陣(B)合成資料方法

葉向原教授－東吳大學

現任東吳大學巨量資料管理學院資料科學系教授；專長為人工智慧、機器學習、深度學習創新應用。

懂得處理不平衡資料集引領落地應用

焦點議題作家

全新功能