【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

發表者 SPEC科學推展中心

303 觀看次數

【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

採訪  / 何郁庭 (科學推展中心執行編輯)

撰稿  / 朱富國 (科學推展中心特約編輯)

審訂  / 中央研究院網格計算中心


 

當代科學研究日益趨向資料與計算密集模式,使得科學計算成為推動學術創新的核心驅動力。為此,國科會 2023年起,補助中央研究院物理所網格中心設立「高效能核心科學計算中心」(NSTCCore, Core Facility for Networking, Science, Technology and Advanced Computing),提供科研社群一個整合運算平台、資料儲存與用戶支援的科學計算中心,強化台灣科研基礎建設的服務與能量。

本篇專題報導將深入NSTCCore團隊,從服務內容到合作成果,探討其如何降低運算門檻、促進跨領域研究合作,並在人才培育與資源整合方面發揮重要影響力。

 

跨國經驗加持,客製化服務優先

歐洲核子研究中心(European Organization for Nuclear Research, CERN)於1990年代末期,啟動了「大型強子對撞機」(Large Hadron Collider, LHC)計畫的籌備工作,旨在探索物質的起源,同時尋找未知的新粒子,進而理解宇宙誕生的奧秘。後續CERN並在法國與瑞士邊界設置週長約27公里的地下環狀加速器,進行粒子對撞實驗。

面對這項跨越國界的重大科學計畫,台灣當然不能缺席。科技部(現為國科會)自2000年起便規劃加入LHC計劃,並於2002年與CERN簽署合作備忘錄,支持中央研究院加入超環面儀器(A Toroidal LHC Apparatus, ATLAS)實驗,以及台灣大學、中央大學團隊加入緊緻渺子線圈(Compact Muon Solenoid, CMS)實驗。

這項盛大的計畫匯集約50國、來自逾百所研究機構的3,000多位科學家。為處理極為龐大的實驗數據,CERN因此設計了全球網格(Worldwide LHC Computing Grid, WLCG)系統,讓實驗的大數據,可以透過 WLCG,利用全球各地的計算中心進行高效能運算(High Performance Computing, HPC)與分析。2005年,中研院成立網格計算中心(Academia Sinica Grid Computing Centre, ASGC),正式成為WLCG的Tier-1計算中心之一。2023 年起,ASGC轉型為「大數據分析與科學計算核心設施」(Scientific Computing and Big Data Analytics Core Facility, SCALE),為中研院各領域研究團隊提供科學計算服務。

現任ASGC負責人與「國科會高效能核心計算服務計畫」總主持人、中研院物理所研究員王嵩銘指出,過往若由計畫主持人(PI)以計畫經費購置計算設備,能採購的設備數量有限,若計算電費與維護成本,效益恐有待商榷,或也有重複投資的疑慮。有鑑於此,國科會於2023年啟動「高效能核心計算服務計畫」,成立「高效能核心科學計算中心」。計畫目標在於為國內科學研究與教育社群,提供中等規模、高效能與穩定的大數據分析環境、安全儲存備份的科學計算環境,提升科研應用效能,並兼顧資源共享與節能減碳,致力建立科學計算系統、技術與服務研發能量以及人才培育。

由於ASGC參與全球網格,並與國內外各領域研究團隊與科學家合作超過20年,累積了豐富大數據分析與科學計算實務經驗,因而雀屏中選,負責NSTCCore的設置規劃與服務。王嵩銘闡述了NSTCCore的定位:「與國網中心(國家高速網路與計算中心)提供大型、高規格的計算資源不同,NSTCCore成立之初就設定為中型科學計算中心,希望能提供更多研究者客製化、更高效率的服務內容。我們也可以依據研究團隊的軟硬體資源與計算流程需求,協助建置科學計算環境與整體分析流程。所以我們和使用者的連結較為緊密,這是我們的一大特點。」

長期負責ASGC核心業務的NSTCCore共同主持人嚴漢偉進一步補充:「科學計算已經成為各領域共同的需求,許多研究團隊或許已有科學計算與分析的解決方案。所以NSTCCore的服務特別強調『科學計算』加『大數據分析』。期望藉此將ASGC的經驗、技術,藉由核心設施資源與服務,提供給所有科學團隊,NSTCCore也尋求與更多科學團隊合作的機會。」
 

【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

無痛快速上手,研究成本更精省

NSTCCore主要提供「計算服務」和「資料儲存」兩大核心服務,其中計算服務又分為「Batch模式高速計算服務 - SLURM」與「雲端模式虛擬化計算服務(SaaS, Software as a Service)- DiCOSApp」。SLURM適合需要處理大量批次作業的使用需求,通常使用者需具備Linux作業系統操作,和撰寫腳本(Script)的能力,以便工作自動排程,有效利用CPU/GPU各類計算資源處理。

DiCOSApp則是以雲端服務的方式運作,NSTCCore團隊會依據使用者需求,將所需要的軟體「容器化」,讓使用者透過網頁的圖形化介面操作,屬於高度客製化的服務。中研院物理所資深工程師(兼技術長)李宏德強調,研究人員最重要的工作在於「研究」,解決科學問題,而不是學習操作電腦,若能利用瀏覽器就能以所需的流程、使用所需軟體,完成資料分析,上手成本就可以大幅降低。

「NSTCCore的目標之一,就是希望讓科學團隊可以專注在科學問題上,不用花腦筋、花成本去管這些變動快速的電腦系統。因為現在軟硬體技術進步太快,往往需要有專門的工程師要去更新維護這些設備。」嚴漢偉說明。且NSTCCore服務費用不僅遠低於研究團隊自行購置設備,更遠低於商業HPC:以採購一部3萬元的高階8-core桌上型電腦為例,相同經費在NSTCCore,可不間斷使用8個AMD Genova core的計算服務長達8.5年(包含電費)。

又例如使用AlphaFold程式進行蛋白質結構研究,儘管需要較大規模的GPU計算量,但計算的時間相對集中,使用者在GPU上運行AlphaFold,約一至兩週即可完成計算工作。對於這種突發性(Peak Demand)需求,研究者若自行採購昂貴的計算設備相當不划算。因此,NSTCCore能有效解決使用者在研究高峰期對算力的剛性需求,大幅降低其計算成本,是非常理想的解決方案。
 

【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

而雲端服務的細節和合作模式,實際上主要是源自ASGC與冷凍電子顯微鏡中心的合作經驗。嚴漢偉和李宏德回憶,為了讓冷凍電顯中心拍攝的資料照片能自動上傳到計算平台,並整合其熟悉的軟體環境,ASGC團隊投注了大量心力設計整體流程與軟體架構。最終,使用者完成實驗後,資料就會自動上傳到計算中心,各地研究人員只需透過網頁瀏覽器,不用安裝任何軟體,即可完成分析。嚴漢偉認為:「與愈多科學團隊合作,NSTCCore所提供的服務就會能持續更新;研究團隊的新需求,也將轉化為新的服務。長期下來,NSTCCore就愈能夠滿足廣大的使用者需求,跟著科學團隊一起成長。」

不過,雲端服務的圖形化模式雖然讓缺乏電腦計算知識的使用者較容易上手,但限制在於目前無法排程進行大量資訊處理。為此,NSTCCore建議使用者可以先從SaaS雲端服務入門,如果有特定軟體需求,NSTCCore也可以專案協助建立適合的操作環境;等到使用上手後,或有進行大量計算等需求時,再協助使用者轉換到SLURM。
「雖然門檻稍微高一些,但是我們也會準備一些範本,給不是那麼熟悉Script的使用者參考,只要參照範本撰寫腳本,或做一些更改就可以上傳任務資料,希望能無痛地銜接到我們的作業環境中,降低使用的門檻。」嚴漢偉指出。
此外,NSTCCore計算服務平台的核心特點之一,就是採用開源(Open Source)系統。由於原始碼公開,技術團隊能夠深入了解軟體運作邏輯,必要時可依據使用者需求快速進行客製化修改、功能擴增,以及整合。同時,開源社群匯集了全球頂尖高手,透過社群溝通與協作,能有效提升NSTCCore自身的專業技術能力與知識水平,形成良性循環。
 

【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

NSTCCore高效能運算平台與資源概覽圖。資料來源:受訪團隊提供。

 

資安嚴格把關,構建全方位保障

NSTCCore的儲存服務,同樣分成短期與長期儲存兩大類。目前短期儲存空間總容量約21PB,一般使用者註冊即享有100GB免費儲存空間,研究群組申請帳號後則擁有3TB免費空間,可由群組內成員共享,空間不足部分可另外付費租用。

為提供高效的資料保護機制,NSTCCore短期儲存採Ceph 8+3 Erasure coding分散式儲存系統,也就是將資料分散儲存在11顆硬碟上。李宏德解釋:「如果損壞3顆硬碟以內,系統會自動修復資料,即使更多硬碟同時損壞,至少還能保護60-70%的資料。」

至於極為重要的資訊,則建議利用Tape Backup(磁帶備份)進行長期儲存;因Tape Backup屬於離線式儲存,更能長期安全地保存重要資訊。嚴漢偉坦言,所有的儲存系統都存在損壞的風險,因此NSTCCore也可與使用者討論,以最便捷的方式增加使用者端的備份,由使用者也自行保管,實現多重保障。

除了資料保護,確保隱私或敏感資訊不至於外洩,則是資訊安全另外一個重要面向。NSTCCore服務的科學團隊眾多,對於資料夾或資訊存取權限,皆已建立完善的控管機制。「我們也持續加強監控異常的能力,才能第一時間發現不當權限開放、資料存取異常等問題。」嚴漢偉補充道。而設備的可靠性、穩定度和效能,也與系統服務效能息息相關

因此設備機房環境如溫度、電力等,同樣需要進行24小時監控,並採取自動化策略。例如,當一部冷氣損壞,備援冷氣可以自動啟用,確保機器設備運作不中斷。

值得一提的是,目前NSTCCore已通過ISO 27001(一般資訊安全)與ISO 27017(雲端服務資安)認證,並依循認證標準持續完善資訊安全作業流程,以降低系統與使用者資料的資安風險。
 

【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

NSTCCore 運算與儲存資源列表。資料來源:受訪團隊提供。

 

完整教育訓練,技術支援不漏接

「我們提供的服務做得再好,坐等使用者上門是不夠的,必須要主動跟大家多介紹,和有真正急迫需求或是大量需求的老師討論。」嚴漢偉語重心長地表示。為此,NSTCCore每年規劃舉辦4場次教育訓練課程,以北、中、南各地輪流舉辦為原則,旨在協助一般入門使用者儘速上手,並讓現有使用者能深入了解各項服務內容,同時直接傾聽使用者經驗與實務需求。

以一日課程為例,上午場次多安排基礎計算操作課程,如SLURM、雲端服務上機實作、資料管理與傳輸處理操作等;下午場次則依照使用者需求進行課程規劃,例如與不同研究群協同合作,提供各領域需要之計算與分析實作訓練。「過去曾與高能物理老師,希望讓學生了解如何利用NSTCCore完成他們要做的分析,我們就在下午讓老師和團隊中有經驗的學生在課程中分享。」嚴漢偉說明。

若是各學門研究群自行舉辦的多日教育訓練課程,NSTCCore也可協助規劃上機訓練,由NSTCCore工程人員預先安裝所需程式或套件,同時將操作環境部署完成,讓學員在課程中可以直接從網頁上學習操作。負責教育訓練課程的中研院物理所軟體工程師楊明娟表示,過去曾與生醫領域教育訓練課程合作,課後使用者都給予相當正向的回饋:「尤其非電腦相關專業的使用者,認為已經有專人做好服務了,只要計畫經費足以支應,就根本不需要付出額外的心力,去購置硬體或向外租用機器設備。如果體驗感覺不錯,後續就會到NSTCCore申請帳號,持續使用我們的服務。」

此外,最新軟硬體趨勢介紹也是教育訓練的一大亮點。例如與NVIDIA、AMD等業者合作,或邀請熟悉GPU Computing、高效能運算、AI等技術與趨勢的專家共同授課。而教育訓練素材皆可在NSTCCore官網上瀏覽,方便所有使用者查閱。
 

【專題企劃18】高效算力驅動未來知識革命—專訪國科會高效能核心科學計算中心暨暨中研院網格計算中心

嚴漢偉認為,辦理教育訓練或推廣課程還有助於發掘新的使用者,還可以接觸很多想像不到的潛在使用者,進而讓更多人瞭解NSTCCore的服務內容。不過,教育訓練受限於時間、場地、場次,若使用者需要獲得更多即時性的諮詢服務和技術資源,除了可透過e-mail與NSTCCore技術人員聯繫,還可參加每週三舉辦的User Meeting線上視訊會議,所有使用者皆可參與並提出問題與建議。

自2003年起,ASGC每年舉辦的國際網格與雲端研討會(International Symposium on Grids & Clouds, ISGC),已成為亞洲地區重要的e化科學年度國際學術活動之一。這也是NSTCCore推展國際合作、引進先進技術、展示經營與研發成果,以及促進使用者技術交流的重要場合。中研院物理所網格中心服務推廣人員黃珮華補充:「透過這場活動,能讓更多國內外學界了解NSTCCore的服務與成果,並增進合作,也是目標之一。」在國科會自然處的協助下,NSTCCore也參與學門年會與研討會,也會設置專屬攤位,為研究人員提供面對面諮詢與服務介紹。

 

優化設備人才,鞏固國家競爭力

面對科學計算技術的快速迭代與國內日益複雜的跨領域研究需求,NSTCCore在服務推廣、國家算力分工、人才培育及基礎設施方面正迎來關鍵挑戰,更期望對台灣科學計算生態系的未來發展有所助益。

截至2025年10月底統計資料,NSTCCore共有203個PI群組,擁有707個使用者帳戶,來自國內30個不同學研機構[註1]。CPU使用量最高的研究群組分別為生醫、物理、天文、資訊與化學;物理、化學、生物、天文、電機電子則為GPU使用量最高的研究群組。由於「高效能核心計算服務計畫」是由國科會自然處規劃,NSTCCore也規劃與大氣、地球科學、永續發展、空間資訊等自然科學學門建立更密切的互動,了解各學門需求以協助自然科學研究發展。

而隨著科學計算與數據分析的普及,對算力的需求已不再限於傳統數理領域。「我們有個比較特別的案例,就是和政治所的老師合作,進行賽局理論的程式運算。」中研院物理所應用系統工程師吳宗訓回憶,其他如經濟所也曾使用中心的服務,進行經濟學模型運算分析。他看好未來若有歷史所、中文所等文史領域研究學門加入人工智慧領域,搭配NSTCCore的科學計算服務,有機會在語言模型發展上,取得不錯的成果。持續將高效能且具經濟效益的計算服務,有效地推廣給更多潛在研究者,是NSTCCore團隊當前努力的首要目標。

從國家科學計算資源的戰略思考,王嵩銘認為儘管國網中心擁有更大規模的資源與設備,但面對全國使用者的龐大服務需求,難免面臨排程等待時間過長的境況。此時,中等規模且具有豐富客製化經驗的NSTCCore,非常適合作為輔助研究者進行快速驗證與研發的運算平台。一旦研究成果成熟,NSTCCore還可協助使用者轉移至國網中心進行大規模批次運算,實現效率最大化。因此,國網中心與NSTCCore亟需建立更清晰的分工模式,形成國家計算生態系統的分流與合作機制,以共同提升全國科學計算的服務效能。

服務品質的基石根植於技術能力,NSTCCore採取Open Source技術路線,以確保自主研發與彈性調整能力。然而,技術研發人才市場競爭激烈,且培育成本極高,導致關鍵技術職位難以建立備援人力。這些都對NSTCCore系統與服務的可靠性構成潛在威脅,也成為NSTCCore人力資源策略必須儘快克服的嚴峻挑戰。

另一方面,機房硬體的可靠性和不斷攀升的營運成本,更是NSTCCore服務永續發展的巨大挑戰。不僅運營逾二十年的機房基礎設施面臨電力系統升級、能源效率提升的迫切需求,還必須提前為未來更高耗電量與液冷運算硬體的電力需求未雨綢繆,且電費成本預期在2025年後更將顯著增長。因此,NSTCCore團隊認為未來必須透過智慧監控與控制技術提高系統效率,以優化使用者體驗(如減少等待時間),並規劃妥適的定價策略,從僅涵蓋基礎成本的定價模式轉向依賴資料服務和進階服務的多元營收模式,方能確保國家科學算力服務的永續發展。

 

結語

在全球科研競爭日益激烈的時代,NSTCCore不僅是台灣科研基礎建設的重要支柱,更是推動跨領域合作、降低研究門檻、培育人才的關鍵平台。透過整合高效能運算與大數據分析資源,它讓研究者能專注於科學問題本身,而不必為硬體設備或系統維護分心。這種共享與協作的模式,既提升了研究效率,也避免了資源重複投資,展現出國家級科研設施的長遠價值。

面對未來,科研人員更應思考:高效能運算資源不只是技術工具,更是知識創新的公共基礎。唯有善用並共享這些資源,才能在學術上持續突破,在社會上創造更廣泛的影響力。NSTCCore的角色,正是提醒我們——算力的革命,最終將轉化為知識的革命,而這場革命需要每一位研究者的共同參與。

 


 

註1:SCALE & NSTCCore 核心設施 User Committee Meeting,2025年10月。網址:https://share.google/vs1ng5cvMttj6NLCg