【研究成果】清大統計所趙蓮菊教授運用生態統計  探討古文獻遺留數量

by Yang-Kuang Chao
1441 觀看次數

撰稿  /  王作城 (科學推展中心特約編輯)


圖1. 中古歐洲文化作品(多為羊皮手抄本)遺留至今的諸多方式中的三種:(A)主教的皇冠、(B)手抄本、(C)手抄本再利用作為綑綁邊緣遺留。

我們現在看到的古代文獻,就如出土的古生物化石一般,當今見到的遠比實際上曾經存在過的少。背後原因有很多,像是戰亂破壞、人為有意無意選擇捨棄,甚至是時間久遠而自然風化毀壞,都是古文獻無法遺留至今的因素。

許多古籍裡都有類似的記載,例如《宋書.張茂度傳》如此寫道:「郡經賊寇,廨宇焚燒,民物凋散,百不存一。」意思就是當時剛經歷動亂,所以許多建築毀壞,造成文物無法留存至今,剩下的不到百分之一。

問題是,現在留下的到底有多少呢?

過去一直沒有以統計模型來研究量化文獻的遺留與毀損,直到今年二月,一篇清大統計所趙蓮菊教授與國外學者合作,登在《Science上的論文[1],才第一次有利用統計生態模型探討關於歐洲中古世紀文獻遺留的量化研究。趙蓮菊教授過去就是非常有名的生態統計學者,近三十年來,她曾經發表過許多估計物種數的模型,被各學科眾多研究者認可,廣泛應用於其他研究領域,其中兩種估計量被生態學界以她的姓氏Chao1、Chao2命名[2][3]。

Chao1估計量一開始是為了估計未在資料中發現的物種數量才發展出來的,由於「物種」的定義可以非常彈性多元,只要是不同的類別都可視為「物種」,因而此估計量在許多其他的學科也可應用。多年來,此估計量泛用於各類無法觀測全部類別的樣本資料,包含人體腸道中的細菌種類數、河川撈取之污染物數量、以及流行病學漏失病例等領域[4]。當看到一次的物種平均豐富度和未被觀測到的物種平均豐富度大約相同時,Chao1即為不偏估計量,若不能滿足此一條件,表示資料缺乏足夠的訊息推估不偏估計量,此時Chao1仍可提供是一個可靠的下界估計量[5]。

此一統計方法近期應用在中世紀騎士英雄文學,並由包括趙教授在內的跨領域研究團隊,收集六種語言(荷蘭語、英語、法語、德語、冰島語、愛爾蘭語)遺留下來的相關文學作品資料(如圖1)。選擇這一種文類是因為中世紀最流行的文學就是騎士文學,像是亞瑟王圓桌武士的故事。歐洲又剛好是到了中世紀末尾,也就是大約1450年代才開始大量使用活版印刷,在此之前的書籍或是文章多是用手抄本流傳。

手抄本的特性就是量少(因為抄起來費時又費力)、容易損毀(大部分材質是羊皮紙上,很容易遭蟲蛀或是因年代久遠損壞)。而研究方法是將這些文學作品分別視為不同「物種」,這些作品若有現存不同版本的手抄本文件,則視為這些作品的「觀察次數」,或是「個體數」。由於中古歐洲文學研究者都認為估計量不偏的條件應大致滿足,因此運用Chao1即可精準推估文獻失落的數量,也就是沒有遺留至今的數量。

結果顯示,六種語言整體而言只保存了約9%的文獻。因此開頭引文的「百不存一」,對歐洲中古世紀文獻而言,應是「百不存十」。各語系文化遺留有顯著差異,最低的是英語,只有4.9%保存下來,保存比例最高的則是愛爾蘭語,達到19.2%,接近五分之一的文獻有流傳當世。

此研究同時經由趙教授的統計均勻度分析[6],顯示島國文化遺留比例較內陸國家為高。作品流傳最高的兩種語言都是島國語言,第一是愛爾蘭語,第二是冰島語。研究人員推測,或許是像生態上因為地理上與大陸的隔絕,孤島較乏掠食者,各物種豐富度較均勻,因此孤島特有種相對較多。統計均勻度分析套用在文獻上,就是島國各類作品其手抄本數量較為均勻,另一方面,島國較少跟國外的征戰,因此文獻較不容易人為損壞,而能保存較多古代文獻。

由於這項跨領域研究成果,解決了歐洲中古文學研究中爭論不休並懸而未決的文獻數量遺留問題,全球至今已有超過110則相關科學新聞報導 [7]。統計學者發展的統計模型與推論方法,若能應用並解決其他領域學科的一些問題,才真正能拓展統計應用的層面。而這次研究成果成為跨文學與理學領域研究的一個典範,同時大眾也能對古代文獻保存有更深一層的認識。


參考文獻

[1] Kestemont, M., F. Karsdorp, E. de Bruijn, M. Driscoll, K. A. Kapitan, P. Ó Macháin, D. Sawyer, R. Sleiderink, and A. Chao (2022). Forgotten books: The application of unseen species models to the survival of culture. Science 375, 765-769. https://www.science.org/doi/10.1126/science.abl7655
[2] Chao, A. (1984). Nonparametric estimation of the number of classes in a population. Scandinavian Journal of Statistics, 11, 265-270.
[3] Colwell, R.K. and J. A. Coddington (1994) Estimating terrestrial biodiversity through extrapolation. Philosophical Transaction of the Royal Society B, 345, 101-118.
[4] Chao, A. (2005). Species estimation and applications. Encyclopedia of Statistical Sciences, 2nd Edition, Vol. 12, 7907-7916, (N. Balakrishnan, C. B. Read and B. Vidakovic, Editors) Wiley, New York.
[5] Chao, A., C.-H. Chiu, R. K. Colwell, L. F. S. Magnago, R. L. Chazdon, and N. J. Gotelli (2017). Deciphering the enigma of undetected species, phylogenetic, and functional diversity based on Good-Turing theory. Ecology, 98, 2914-2929.
[6] Chao, A. and Ricotta, C. (2019). Quantifying evenness and linking it to diversity, beta diversity, and similarity. Ecology, 100(12), e02852.
[7] 全球已有超過110則新聞報導
https://science.altmetric.com/details/123238952

你可能也想知道