張哲誠副教授/逢甲大學資訊工程學系
監督式學習(Supervised Learning)是機器學習中最廣為人知、應用最廣泛的一種學習方式,它的核心概念在於透過有標籤的資料來訓練模型。所謂標籤,指的是資料中除了輸入特徵(Features)之外,還包含了對應的正確答案(標籤,Label),模型透過學習輸入與輸出之間的映射關係(Mapping),進而在遇到新的輸入時能做出正確的預測。
監督式學習的典型流程包括:資料收集、資料清理與前處理、特徵選取、模型訓練、模型測試,最後才進入實際應用。根據輸出的特性,監督式學習又可以細分為分類(Classification)與迴歸(Regression)兩大類。分類任務是指輸出為離散值,例如:判斷電子郵件是垃圾郵件還是正常郵件、判斷影像中的動物是狗還是貓;而迴歸任務則是輸出為連續值,例如:預測房價或股票價格。 監督式學習的優點在於其方法清晰且容易評估,透過交叉驗證與評估指標,我們能明確地衡量模型的表現。然而它的缺點也相當明顯,最大的挑戰在於需要大量標註的資料,而資料標註往往耗時、昂貴,甚至在某些特定領域幾乎不可能取得完整標籤。另外,監督式學習模型可能會過度擬合(Overfitting),也就是對訓練資料學得太過死板,導致在新資料上的表現不佳。儘管如此,監督式學習仍是目前產業界應用最成熟的機器學習方式,無論是在金融風險評估、醫學診斷還是電商推薦系統,都扮演著極為重要的角色。

No Comments Yet