【研究成果】有效預測電腦模型的新子數據選擇法克服大量數據的計算限制

發表者 科學推展中心

29 觀看次數

撰稿  /  張鳳吟 (科學推展中心特約編輯)

 

 

 

圖1、Michaelwicz函數的等高線圖(黑點代表SRS採樣的子數據)。

 

 

機器學習(machine learning)是人工智慧的一個分支,透過演算法將收集到的資料進行分類或預測訓練,建立”黑盒子”(black box)的輸入與輸出變數之間的關係,再以訓練出來的電腦模型對數據資料產生最佳預測。機器學習在科學上的應用相當廣泛,例如史上第一張由事件視界望遠鏡(EHT)所拍攝的M87黑洞影像,團隊後續利用機器學習的方法得到更詳細、塑形的影像結果。

 

 

然而,隨著技術發展,我們能取得的數據資料數呈爆炸性成長,超過先進統計方法與電腦能夠處理的範圍,這些限制導致計算期間數值的不穩定性,進而降低預測的準確度。為了能克服這個問題,近期統計學家發展出基於資料的最佳化子數據選擇(information-based optimal subdata selection,IBOSS)、拉丁超立方抽樣(Latin hypercube)等替代方法,期望在有限的時間與計算資源,選擇樣本數較小的子數據集,而可保留完整數據中的大部分資訊。中研院統計所助研究員張明中博士以原來處理全域最大/最小化的有效全域最佳化(efficient global optimization,EGO)演算法為基礎,提出一種能提供正確預測的新子數據集選擇法,此方法考慮了輸入特徵的幾何,以及輸出值的資訊。從數值模擬與真實數據的測試結果,張博士證明所提方法有更佳的預測能力,關於研究的細節與模擬結果發表於《計算與圖形統計期刊》(Journal of Computational and Graphical Statistics)[1]。

EGO演算法在1998年由Schonlau、Welch與Jones提出,原先是設計用於全域的最大與最小化。EGO的基本概念是根據目前的數據集計算改進函數(improvement function)的條件期望值,尋找下一個最有可能是極值的點,並將該點加入集合中,重複此一步驟直到迭代完成,由於計算過程會利用到搜尋點的資訊,因此比隨機的搜尋更有效率。張明中博士以EGO的概念與期望改進(expected improvement,EI)演算法為基礎,提出新的子數據選取準則。和傳統的EI不同,新準則以強化預測能力為目的,且子數據集\(D_{s}\)外的輸出值可取得,新演算法可同時選擇多個預測性的資料點。

 

方法學介紹

張明中博士從高斯過程(Gaussian Process,GP)模型出發,假設一組很大的數據集\(D=x_{i}:i=1,...,n\),輸出為\(y(x)=η(x)+ϵ(x)\),其中\(η(x)\)為高斯過程回歸的輸出,\( ϵ(x)\)為隨機誤差。\(f(x)\)為輸出的真正數值,對於決定性(deterministic)的過程\(y(x)=f(x)\),反之,\(y(x)=f(x)+ϵ(x)\)。對給定的\(k≥1\),預測性模型應該與任何k維的未觀測輸入\(x_{i1},...,x_{ik}\)的真實輸出非常接近。定義改進函數\(I(x_{i1},...,x_{ik})\)\(η(x)\)\(f(x)\)\(x_{i1},...,x_{ik}\)的偏差,只要I是大的,就把\(x_{i1},...,x_{ik}\)加入目前的子數據集\(D_{s}\)中。根據這樣的思維,張明中博士的新演算法步驟如下:1. 先決定子數據集大小M,利用非監督式(unsupervised)方法,如簡單隨機抽樣(SRS)或SPlit法,來選擇初始的子數據集大小\(D_{0}\)(例如0.3M)。2. 設定\(R_{pred}^{2} (D_{s})=1-\frac{MSE(D_{S})}{MSE(D_{0})} \)為評估\(D_{s}\)預測表現的量,其中\(MSE(D_{S})\)代表誤差的均方差,如果\(R_{pred}^{2} (D_{s}) \)小於0代表\(D_{s}\)\(D_{0}\)的預測更差。定義\(​​a_{s}\)為加入子數據集\(D_{s}\)的數據點數,設\(​​a_{s}=1\)\(D_{1}=D_{0}\),當\(R_{pred}^{2} (D_{s})≥R_{pred}^{2} (D_{s-1})\),增加\(​​a_{s}\) (例如\(​​​​a_{s}→2a_{s}\));反之減少\(​​a_{s}\) (例如\(​​​​a_{s}→a_{s/2}\)),如果\(|D_{s}|+a_{s}>M\),則設\(a_{s}=M-|D_{s}|\)。3. \(k=​​a_{s}\),當\(D-D_{s}\)中所有k大小數據點的改進函數期望值\(E(I(x_{i1},...,x_{ik})|y)\)最大,\(x_{i1},...,x_{ik}\)加入\(D_{s}\),更新\(D_{s+1}=Ds∪x_{i1},...,x_{ik}\)。重複2、3步驟直到達到預定子數據集大小M或是穩定的\(R_{pred}^{2}\)。根據張明中博士所推導的結果,新方法學的計算複雜性(指計算花費時間)為\(O(nM)+O(M^{3}) \),遠小於直接擬合完整數據的\(O(n^{3}) \)

 

數值測試

張明中博士將新方法學應用在數個函數與真實數據中,並和其它演算法做比較。圖1為Michaelwicz函數\(f_{m}(x)=− {\textstyle \sum_{j=1}^{2}} sin(πx_{j})sin^{20}(jπx_{j}^{2} )\)的等高線圖(contour plot),其中黑點為SRS所採樣的子數據集,可看到僅有少數黑點出現在產生函數解較起伏的區域,無法正確預測函數的真正結構。

應用張明中博士所提的新方法,M設為80 (n為1000),\(​​​​a_{s}→1\)(每次增加一點),比較Joseph 與 Mak的監督式數據壓縮法(Supercom) (2021),結果如圖2,兩種方法皆在產生高輸出變化的區域採樣較多的資料點,不過張博士的新方法在藍色區域比Supercom有更多的資料點,下圖為利用兩個子數據擬合預測的等高線圖,新方法的產生的結果較佳。

 

圖2、(上) Michaelwicz函數等高線圖與不同方法取樣的子數據。(下) 不同子數據集所預測的等高線圖。

 

圖3為高維( d=8)的Drop-Wave函數,n=100,000,M=1000,設定當\(R_{pred}^{2} (D_{s})≥R_{pred}^{2} (D_{s-1})\)\(​​​​a_{s+1}→2a_{s}\),反之\(a_{s+1}=⌈a_{s}/2⌉\),比較Supercom法取樣數據點與擬合的等高線圖的結果如下,新方法學有較好的預測能力:

 

圖3、(上) Drop-Water函數等高線圖與不同方法取樣的子數據。(下) 不同子數據集所預測的等高線圖。

 

圖4為不同方法學(完整數據、新方法學、SRS、Supercom)在函數與真實數據應用的均方根預測誤差(RMSPEs),所提之新方法學較低的誤差值。

 

圖4、為不同方法學在函數與真實數據應用的均方根預測誤差。

 

許多統計方法無法有效應用在大型的數據集,張明中博士表示,雖然他的新方法在一些範例的表現超越其它方法,但這個方法是特別針對決定性的電腦模型,不代表對所有模型都普遍較好。未來的研究方向,將包括設定最佳化的子數據集增加大小為最佳化,以及發展此方法之非母數(nonparametric)版本,來因應真實世界的輸入-輸出關係。

 


 

參考文獻

 

[1] Ming-Chung Chang*, Predictive subdata selection for computer models, Journal of Computational and Graphical Statistics, 32, 613-630(2023).

留言迴響
我要留言