【研究成果】有限混合多元污染常態設限迴歸模型處理具設限與離群值之異質性資料

發表者 SPEC科學推展中心

167 觀看次數

撰稿 /  王婉倫 教授 (國立成功大學統計學系)、張鳳吟 (科學推展中心特約編輯)


 

面對異質性多變量資料的研究挑戰

 

我們經常將一個母體 (Population) 進行聚類 (Clustering) 分析,例如將人群按照年齡、收入或教育水準來劃分,這些子群體的迴歸模型或分佈存在著差異。假如母體包含潛在的群體,我們可利用有限混合 (Finite Mixture; FM) 模型來建模屬於潛在群體的機率分佈,估計每個群體的分佈或迴歸模型之參數,將個體分類至相應的群體中,並判斷每個群體的行為特徵。

 

有限混合 (FM) 模型在一百多年前就有相關應用,直至近十年因計算能力的快速發展而有大量研究。FM模型除了可應用於觀測資料來自不同群體且群體歸屬不明的情形,亦可用來近似多模型的複雜分佈。然而,傳統的FM模型與其迴歸型態常受到資料存在異常值 (Outliers,偏離主要分佈的測量值) 影響而違反模型中的常態假設。為了克服此限制,近年已發展出許多統計模型達到異常值存在的穩健多元資料的聚類,例如:Punzo和McNicholas (2016) 提出有限混合多元污染常態 (Finite Mixtures of Multivariate Contaminated Normal; FM-MCN) 模型,Mazza 和Punzo (2020) 進一步擴展FM-MCN模型為迴歸型態,稱FM-MCNR模型,用以處理存在異常值的群組多變量資料。另一層挑戰來自於設限觀測 (Censored Observation),即觀測資料因實驗設備的量測範圍或偵測能力有限,而無法完整呈現其真實值。這類資料的不完整性會使統計模型的建構與推論更加複雜,進一步提高分析的技術門檻。 Tobin (1958) 率先探討設限迴歸模型的最大概似估計方法,奠定了相關領域的理論基礎。其後,He (2013) 提出FM-MNC模型,將高斯混合模型擴展至可處理多元設限變數的異質群體資料。進一步地,Lachos et al. (2017) 利用多變數t分佈擴展FM-MNC模型,稱FM-MTC模型,以處理具厚尾 (Heavy Tails) 或非典型觀測值的設限資料。

 

異常值與設限觀測下的穩健混合建模

 

在實際應用上,資料時常同時存在異質性、異常值與設限觀測等特徵,針對此類型數據進行模式化及聚類分析是重要的議題。中興大學統計所林宗儀教授與成功大學統計系王婉倫教授在最新發表於《計算與圖形統計期刊》(Journal of Computational and Graphical Statistics)的研究工作中,提出有限混合之多元污染常態設限 (FM-MCNC) 模型及其迴歸延伸版本 (FM-MCNCR) 模型,以因應同時存在潛在異質性、異常值及區間設限 (Interval Censored) 觀測的資料。為克服模型最大概似估計所面臨的挑戰,團隊發展出交換性期望值條件最大化(Alternating Expectation Conditional Maximization; AECM)演算法,其能夠比傳統的期望值最大化(Expectation Maximization; EM)法更有效率地更新參數的估計。此AECM法的推導與實作,奠基於2024年發表於《多變量分析期刊》(Journal of Multivariate Analysis) 的理論成果,該研究建立了針對截切多變量厚尾分佈族的動差公式,為模型中涉及設限與厚尾特性的參數估計提供了關鍵數理支撐。

 

以模型為基礎的實證探索

 

團隊將新的方法學應用於「葡萄牙批發資料」和「美國婦女勞動參與資料」的兩個實際例子。第一個例子涉及440位消費者(含67.7%來自零售通路、32.3%來自餐廳銷售)在牛奶、雜貨、冷凍食品、清潔劑的年度收支,比較FM-MCNC與其它模型FM-MNC、FM-MTC的分類成效,結果顯示FM-MCNC的分類效能高於其它兩個模型。分析結果如圖1所示,FM-MCNC模型能清楚地將樣本點分成兩組,透過模型特性,能在完成配適時同步偵測資料中的離群值,且兩群的截切二元汙染常態密度函數能捕捉樣本點的分佈。第二個例子分析1975年美國的753名已婚婦女及其丈夫的勞動參與資料,將夫妻的工時與平均時薪作為反應變數,夫妻的年齡、18歲以下小孩數、教育程度作為解釋變數,同時考量本組數據中有43.2%的婦女在當年無工作收入或平均時薪極低,4.5%的丈夫工作時薪極低,這些觀察值皆視為設限值。經由非監督式學習得知所提出之兩群FM-MCNCR模型能獲得數據的最適擬合,原始資料及分析結果如圖2所示。綜合以上二實例分析,顯示FM-MCNC與FM-MCNCR在多種評估準則上都優於現有方法,獲得該資料更合理的統計推論。

 

圖1. 葡萄牙批發資料之視覺化與基於兩群組 FM-MCNC 模型資料擬合結果 (對角線顯示四個標準化變數的直方圖;上三角顯示四個標準化變數的成對散佈圖,依據真實通路以兩種符號標示,並以圓圈標出被識別出的異常點;下三角顯示實際觀測值與經由模型恢復的設限值的成對散佈圖,並以兩種符號標示所預測的群集。)

 

圖2. 美國1975年夫妻勞動參與資料的視覺化及基於兩群組的FM-MCNCR模型資料擬合 (對角線表示四個標準化反應變數的直方圖,其中灰色區域代表設限觀測值;上三角表示四個標準化反應變數的成對散佈圖,並以圓圈標示出由最佳擬合模型所識別的異常點;下三角表示根據最佳擬合模型所得之預測群集,以兩種符號區分的擬合值成對散佈圖。)

 

未來研究進展

 

當前在統計建模與資料分析的實務應用中,資料的完整性往往受到多重因素影響而遭到破壞。這些因素包括但不限於受測者未回應、儀器故障、資料收集過程中的技術限制,或是極端值的出現等,皆可能導致資料的遺失 (Missing)、設限 (Censoring) 與異常值 (Outliers) 同時存在於資料集中。這類異質性多元資料的特性,對傳統方法構成挑戰,也突顯了發展能夠同時處理這些問題的統計模型之迫切性與重要性。有鑑於此,研究團隊未來的工作將聚焦於擴展FM-MCNC與其延伸版本FM-MCNCR模型,使其能夠處理更高維度、更複雜的資料結構。此擴展不僅涵蓋多群組、多變量的情境,也將納入更靈活的異常值處理機制與設限模式,以提升模型的適應性與實用性。
 


 

參考文獻

[1] He, J. (2013) Mixture model based multivariate statistical analysis of multiply censored environmental data. Advances in Water Resources, 59, 15-24.

[2] Lachos, V.H., Lòpez Moreno, E.J., Chen, K., and Cabral, C.R.B. (2017) Finite mixture modeling of censored data using the multivariate Student-t distribution. Journal of Multivariate Analysis, 159, 151-167.

[3] Lin, T.I. and Wang, W.L. (2024) On moments of truncated multivariate normal/independent distributions. Journal of Multivariate Analysis, 199, 105248.

[4] Lin, T.I. and Wang, W.L. (2025) Finite mixtures of multivariate contaminated normal censored regression models. Journal of Computational and Graphical Statistics, https://doi.org/10.1080/10618600.2025.2495257.

[5] Mazza, A. and Punzo, A. (2020) Mixtures of multivariate contaminated normal regression models. Statistical Papers, 61, 787-822.

[6] Punzo, A. and McNicholas, P.D. (2016) Parsimonious Mixtures of Multivariate Contaminated Normal Distribution. Biometrical Journal, 58, 1506-1537.

[7] Tobin, J. (1958) Estimation of Relationships for Limited Dependent Variables. Econometrica, 26, 24-36.

留言迴響
我要留言