【研究成果】從特徵擷取到模型簡化:以孿生神經網路打造可解釋又高效的分類與異常偵測架構

發表者 SPEC科學推展中心

10 觀看次數

撰稿 /  周珮婷(國立政治大學統計學系副教授)、科學推展中心編輯部


 

隨著深度學習技術的蓬勃發展,神經網路模型已在語音辨識、影像分類、自然語言處理等非結構化數據應用中展現卓越成果。演算法靠著神經網路(Neural Network, NN)技術,由相互關聯的節點或神經元建構層狀結構,並由數學函數不斷學習和改進。然而,在處理高維資料處理與小樣本學習中,遞歸神經網路(Recurrent Neural Networks, RNN)與卷積神經網路(Convolutional Neural Networks, CNN or ConvNets)往往伴隨龐大計算成本與過擬合風險,使得其在結構化資料、異常偵測或資源受限場域的應用受到挑戰。

 

為解決這些問題,國立政治大學統計學系周珮婷副教授研究團隊結合統計學與人工智慧,提出一套以孿生神經網路(Siamese Neural Network, SNN)為核心的資料學習與模型簡化框架,並透過PCA降維與神經元剪枝技術,刪除不重要的連接和/或神經元,以打造保留準確性且大幅壓低計算成本的精簡模型。
 

 

圖1. SNN基本架構示意圖。

 

孿生神經網路(SNN)原始用於處理相似度判別任務,其架構由兩個共享權重的子網絡組成,可將輸入對映射至同一潛在空間中,再以歐氏距離、餘弦相似度等衡量其相近程度(如圖1)。研究團隊設計了一種結合SNN與傳統監督模型之框架,此框架能將高維結構化資料映射至潛在空間,以進行分群與分類,並輔助分類模型(如 SVM, Random Forest, Isolation Forest, One-Class Support Vector Machine等),有效識別極端稀有的異常樣本(如圖2)。此方法於多組公開資料集上實證表現優於傳統模型與其他深度學習模型,能夠有效捕捉極稀少的異常樣本特徵,顯示將SNN從「相似性判別工具」轉化為「資料表徵學習器」的新思維,不僅提升異常偵測的精準度,更有助於跨域應用的擴展。

 

圖2. 將 SNN 應用為資料的特徵擷取器,輔助分類模型。

 

模型強化策略方面,周珮婷則結合PCA降維與神經元剪枝技術,在卷積層和全連接層等不同網絡位置去除不必要的神經元或連接,實現模型精簡。PCA剪枝的優勢在於能夠捕捉原始權重中的主要變異性,同時減小模型的參數數量,這樣的操作有助於提高模型的計算效率,減小存儲需求,同時維持模型的表現。目前已有多項神經網路相關研究利用PCA的技術擷取特徵,例如先對原始數據進行PCA降維,然後以PC作為神經網路的輸入向量(如圖3),透過PCA的降維處理,能夠提高神經網路的分類性能,提升數據的分類預測正確率。

 

圖3. 大多數研究為針對輸入資料先做PCA降低維度後,再透過神經網路學習。

 

研究團隊首先將SNN隱藏層輸出向量進行主成分分析(PCA),篩選出代表性特徵分量,再作為機器學習模型(如 SVM、Random Forest、One-Class SVM等)之輸入,以建立具泛化力的分類流程。接著,進一步將PCA應用於模型層級,以隱藏層權重矩陣為分析對象,篩選出貢獻度高的神經元,進行結構剪枝(圖4、5),達到減少模型參數量與記憶體需求、加快推論速度降低能源消耗、維持甚至提升分類表現等成果。

 

圖4. 利用神經元剪枝的概念結合PCA,將隱藏層的神經元權重及維度以前k個PC取代。

 

圖5. SNN隱藏層中應用PCA進行權重修剪示意圖。

 

透過此方法,實證即使在模型精簡後,仍可在結構和非結構資料型態中提升預測效能,同時避免模型中部分神經元或連接在特定的訓練樣本中過度配適的情形,使其更適合即時部署與低資源場景。

 

此研究成果強化了深度學習理論中「模型壓縮」與「特徵轉換」的連結,並揭示將SNN從相似性判別工具轉化為結構化資料特徵擷取器的方法創新,與引入PCA降維與神經元剪枝技術,能有效減少與深度模型相關的大量計算成本和記憶體儲存需求,使修剪後的模型在保留準確性的前提下平衡效能與計算資源。

 


 

參考文獻

[1] Chou, E. P., & Hsieh, B. C. (2025). Enhancing Anomaly Detection in Structured Data Using Siamese Neural Networks as a Feature Extractor. Mathematics, 13(7), 1090.