【研究成果】質譜法結合機器學習   幫您挑選好咖啡豆

by Yang-Kuang Chao
192 觀看次數

撰稿  /  張鳳吟 (科學推展中心特約編輯)


圖1、上圖為單一咖啡豆質譜法,咖啡豆上的溶劑液滴形成泰勒錐;下圖為中培(A)麝香貓豆(B)非阿卡比亞豆(C)阿卡比亞豆的質譜結果[1]。

在早餐或下午茶時光品嚐一杯咖啡,對許多人而言是日常生活中的小確幸,咖啡入口時感受到的風味和層次都讓人瞬間有了活力。咖啡豆的價格受到多方面的因素影響,包含味道、香氣、化學成分與處理過程等等,從最貴的麝香貓咖啡(kopi kuwak)到普通的豆子其價格可以差到千倍之多,也因此在高價的麝香貓豆中魚目混珠摻雜一些廉價咖啡豆並不是件意外的事。由於咖啡的味道與香氣來自豆子的化學成分,豆子品質的分類也是依此為基礎,因此一些化學的分析方法如光譜法、色譜法、電化學法、質譜法等,已被應用在咖啡豆的特徵描述與分類。

然而,大部分的方法需要先將豆子破壞來萃取成分,不僅耗時且耗人力。國立陽明交通大學應用化學系陳月枝教授與應用數學系林得勝副教授跨領域合作,結合質譜法與機器學習,提出一種能直接分析單一咖啡豆 (不用事先破壞) 的新方式,並利用機器學習從質譜快速且準確的辨識麝香貓豆與其它豆,有助於未來咖啡豆工廠與顧客的品管。此項結果發表於《食品化學》期刊[1]。

極化誘導電噴灑游離法(PI-ESI)

 質譜法是一種測量原子或分子質量的分析技術,它可用來決定樣品中的化學元素以及化合物。其原理是將進到離子源的分析物游離,將帶電荷的氣相分析物離子經電場或磁場的操控下,根據其不同的質荷比(m/z)在空間上或時間上分離,經偵測器偵測及放大訊號後即可得到質譜圖。電噴灑法是常見的大氣壓下游離法。陳月枝教授團隊開發了極化誘導電噴灑游離法(polarization-induced electrospray ionization,PI-ESI),並據此發展了可測量單一咖啡豆的質譜法[1],可利用此法直接來分析咖啡豆 (例如,麝香貓豆、阿卡比亞豆與非阿卡比亞豆)。先從咖啡豆裡隨機選擇一顆放置於靠近(~1 mm)質譜儀的入口前,並在豆子表面滴一滴含有甲醇與去離子水混合的溶劑液滴,由於質譜儀入口端前端加有高電壓,此液滴在此高電場的作用下就會被誘發產生極化現象,當電荷累積至臨界值時,泰勒錐(如圖1上圖)就會形成並產生電噴灑噴霧,溶劑揮發後即時產生帶電荷的氣相離子,並被電場導入質譜儀,即可得到代表單顆咖啡豆主成分的質譜圖。此方法的好處是簡單且快速,不需要額外的高壓電源與氣體及前處理及萃取步驟,只需要將微量溶劑滴在一顆咖啡豆上,此液滴在質譜分析過程中瞬間即時進行原位(in situ)萃取及萃取物游離化,就可以得到代表單一咖啡豆主要成分的單一質譜圖。

團隊針對深培、淺培的咖啡豆,以及中度烘培的麝香貓、阿卡比亞及其它豆種進行分析,結果如圖1下圖,發現所有樣品的質譜譜峰皆包含m/z 377與393,分別對應咖啡中綠原酸(caffeoylquinic acid)與鈉和鉀的合成物,其中綠原酸是咖啡豆的主要成分,也是苦味來源。而特別的是麝香貓咖啡擁有更多m/z > 400的特徵譜峰,這可能對應於豆子經過動物腸道的處理而有的特殊風味。不過人眼來辨識質譜及分類咖啡豆還是費時費力。為了能加速麝香貓豆與非麝香貓豆的辨識,團隊進一步利用機器學習來建立分類的模型。

機器學習進行分類

機器學習簡而言之,是透過演算法將收集到的資料(這裡是咖啡豆質譜)進行分類或辨識模型的訓練,再以訓練得到的電腦模型對數據資料產生最佳的預測。如果訓練集的資料含有輸入與輸出變數之間的關係,則稱之為監督式學習。常見的監督式學習演算法包含線性與非線性迴歸、決策樹,以及神經網路演算法。應數系林得勝副教授團隊開發一種只有一個隱藏層的全連接神經網路(註1)來對豆子的質譜結果進行辨識。這個模型的輸入為經過前處理後的咖啡豆質譜,而輸出則為豆子的種類,並以交叉熵損失(cross-entropy loss)來訓練系統。數據來源為各60顆麝香貓豆、阿卡比亞豆、非阿卡比亞豆得到的180個質譜,從中隨機取樣80%作為訓練集,其餘20%做為測試集。數據重複隨機取樣20次做交叉驗證,以求得精確度,結果如表1A、B:

表1A、交叉驗證累積測試的Model confusion matrix

表1B、交叉驗證累積測試的模型準確度、靈敏度與特異度。

從結果來看,模型辨識麝香貓豆的準確度為98.75%,辨識非麝香貓豆為100%,而整體模型的準確度則為99.56%。

為了理解訓練出來的神經網路模型究竟是如何做辨識的,團隊也利用深度Shapley Additive Explanation(SHAP)來分析質譜特徵對對神經網路分類的貢獻度,圖2為SHAP的結果,顯示m/z 463、405、441、421、347、409、363為分辨麝香貓豆與非麝香貓豆重要的質譜離子特徵峰。有趣的是這與人眼對質譜的觀察一致,人眼能看出麝香貓咖啡擁有更多m/z > 400的特徵離子峰,而機器學習方法更近一步具體地指出重要頻譜特徵。

圖2、深度 SHAP結果(A)平均絕對SHAP值,(B)SHAP值對模型輸出的影響[1]。

目前咖啡豆的品管尚仰賴著咖啡師的判斷,團隊希望這個新方法能為咖啡豆工廠提供簡單、快速且準確的方法,團隊也相信這方法也可延伸用在類似概念的其它單一物體上。

 

註1:關於淺層神經網路,可參考 https://spec.ntu.edu.tw/20211116-research-math/


參考文獻

[1] Tsai, J. J., Chang, C. C., Huang, D. Y., Lin, T. S., & Chen, Y.-C. (2023). Analysis and classification of coffee beans using single coffee bean mass spectrometry with machine learning strategy. Food Chemistry, 426, 136610.

你可能也想知道