【研究成果】利用OMA工具,系統性蒐集多階層因子實驗的異質性質料

發表者 SPEC科學推展中心

388 觀看次數

撰稿 /  張明中 副研究員 (中央研究院統計科學研究所)


 

廣義來看,統計科學的核心在於如何收集資料,以及如何分析資料。若一開始取得的資料品質不佳,再精緻的統計模型也難以支撐可靠的結論與決策,因此「有計畫地取得高品質資料」本身就是一門關鍵學問,也就是所謂的實驗設計。在實際資料收集過程中,異質性幾乎無可避免:不同個體、地點與時間往往具有系統性的差異,統計課程中常見的成對 t 檢定(paired t-test)便是處理此一問題的基本例子。

 

許多實務情境中,異質性往往不是單一來源,而是以更複雜的形式同時存在:有些實驗包含混水準(mixed-level)因子,即各因子的水準數目不同;有些具有多階層(multi-stratum)結構,同時存在試驗地點、批次等多層次誤差來源;區組或批次大小也常常不相等。整體安排與其說是實驗設計文獻中的「正交區組設計」,不如說是一種只保留部分正交性、較貼近實務的結構,我們稱之為部分放寬的正交區組結構(partially-relaxed orthogonal block structure)。這樣的環境下,我們採取以列為主(row-based)、不預先綁定特定統計模型(model-free)的觀點:把設計矩陣的每一列視為一個「實驗條件點」,並要求所有條件兩兩之間的平均相似度盡可能小──也就是讓這些「點」在設計空間中儘量分散,而不是擠在相近位置,才能在面對複雜異質性時,依然為後續統計分析提供多元且具區辨力的資訊。

 

為了在面臨多種異質來源的情況下,仍能獲得足以支撐後續統計分析與模型建構的高品質資料,中央研究院統計科學研究所張明中副研究員發展了一套設計資料蒐集方式的工具:orthogonalized moment aberration(OMA)。直觀而言,OMA 先為每一對實驗條件點定義「相似程度」,並依照前述的部分放寬正交區組結構加權:同一區組、同一階層的點,對整體指標的貢獻不同於跨區組、跨階層的點。接著,OMA 將這些加權相似度分解為由低到高的多個等級:先考慮最基本的一階成分,再逐步扣除已被較低階解釋的部分,抽取出二階、三階乃至更高階的「新增相似度」,形成一串可比較的指標序列;指標愈小,代表在各階層下,設計在兼顧分層結構後仍盡量分散。進一步地,OMA 不侷限於單一的相似性定義,而是透過不同的 kernel function 來刻畫兩點距離:採用 Hamming kernel(著重因子水準是否相同)時,OMA 對應實驗設計文獻中的 generalized minimum aberration,適用於質性因子;採用一次多項式 kernel(著重因子水準之線性差異)時,則對應 β-aberration,適用於量性因子。當質性與量性因子並存時,可利用 Hamming kernel 與一次多項式 kernel 的 additive kernel 導出實驗設計文獻中的 θ-aberration;若改用電腦實驗常見的 Gaussian kernel,OMA 又可產生熟悉的 space-filling design。換言之,OMA 提供了一個統一且可延伸的框架,將多階層實驗設計與電腦實驗設計納入同一語言中加以比較與推廣。

 

以 OMA 為核心的設計準則下,即使研究者事先並不知道各階層誤差(例如區組效應、批次效應、個體內變異)的相對大小,仍可系統性地找出穩健的實驗設計。其理論結果證明:實務上無需精確掌握各階層權重,只要某一設計在若干「極端情境」之下(例如由某一階層變異主導,或幾乎可忽略)皆表現良好,便可推得在所有介於其間的情況下亦具優良表現。換言之,只需檢查有限多種具代表性的異質性配置,即可篩選出對廣泛實務情境皆具穩健性的設計,而不必寄望於事前精準估計每一階層的誤差大小。

 

舉例而言,Chang (2025) 的 Example 2 為不理想的非正交(non-orthogonal)情境,可視為一個「在異質訓練環境下進行超參數最佳化的實驗」。這個例子中,因子 A、B、C 扮演三個待調校的超參數(例如學習率、正則化強度、mini-batch 大小),而兩個區組因子 F₁、F₂ 的六種組合,則對應六個彼此異質的訓練環境,可能來自不同資料來源、實驗批次或運算條件。也就是說,每一次訓練同時受到「超參數設定」與「所處環境」兩個面向的影響。Example 2 的 Figure 4 顯示,在階層誤差強度未知的情況下,OMA 能產生在不同階層誤差配置下各自貝式D效率最優的設計(y軸數值越小越佳),例如圖中的 d4、d5、d6 分別在某些特定的誤差強度組合下達到最佳,其中盒形圖為所有設計之後驗共變異數矩陣行列式值。
 

 

 

 

 

綜合而論,在資料科學的脈絡下,關鍵不僅在於分析方法是否精巧,更在於能否在充滿異質性的現實環境中,有系統地收集足以支撐嚴謹推論的高品質資料。從最基本的成對t檢定到多階層的實驗設計,Chang (2025) 所提出的 orthogonalized moment aberration(OMA)提供了一個統一的、以列為主且不預先綁定模型的視角:透過合適的 kernel,結合部分放寬正交區組結構對相似度加權,我們得以評估設計點在各階層上的「平均相似程度」,並在未知各階層誤差大小的情況下,仍能選出具穩健性的實驗設計。這樣的框架不僅適用於多階層因子實驗,也在異質訓練環境下的超參數最佳化問題中展現出明確的應用潛力。

 


 

參考文獻

[1] Chang, M. C. (2025). Orthogonalized moment aberration for mixed-level multi-stratum factorial designs with partially-relaxed orthogonal block structures. Journal of the Royal Statistical Society Series B: Statistical Methodology, 87(5), 1636–1654. https://doi.org/10.1093/jrsssb/qkaf033

留言迴響
我要留言