電腦人類學研究:從維基百科看誰是大人物

自從有了互聯網和及其相應誕生的人類行為,有關不同文化的研究便有了新的突破。最近,有電腦人類學家(computational anthropologist)在維基百科進行數據挖掘(data-mining),揭示了東西方文化如何識別歷史上的重要人物。

wikipedia

今天,透過群眾集資而維持的維基百科,已有超過3100萬篇文章,以285種語言顯示出來。

維基百科中一個重要的類別是「重要人物」。但是,不是人人也可以被寫進維基──維基有一定特定的準則,去判定誰是/不是重要人物。

所以,究竟不同語言版本的維基如何判定誰是「重要人物」,便有趣了。很明顯,不同文化會有不同因素去形成這些判斷的標準。

麻省理工大學的Peter Gloor和他的同事研究了四種語言(英文、德文、中文、日文)的維基百科。他們說,分別不僅僅這些語言文化選的「重要人物」不同。就算是清單的形成也有不同。

gloor_peter_3_10-178px

研究團隊的目標,是替在維基百科特定版本中出現的所有人物製造一個社交網絡。

他們首先下載所有「名人」的文章。在英文維基,便下載了80萬篇文章。然後,他們按人物的出生日和去世日分類,找出誰跟誰在同時代生活過。他們也分析每人的頁面會指向另外的哪些人。

這樣,Gloor的團隊為西元前3000年到1950年間的每一年間出現過的名人,都畫出了那些名人的社交網絡。

舉例:在西元0年,希望歷史學家及傳記作家Plutarch被聯上同代的羅馬皇帝Hadrian(哈德良)、Caesar(凱撒)和Nero(尼祿)。而在Plutarch前或後出生及去世的人,則不會被包納進網絡之中。

最後,研究者用著名的Page-rank(網頁排名) 演算法去找出這些社交網絡中的人,哪位最重要。Google也是用這演算法去排列搜索頁。這方法是:如果這頁被其它頁指向愈多,它的排名就愈高。

bushface_0

在英文維基,最著名的人是前美國總統喬治布殊(George W Bush),莎士比亞(William Shakespeare),維多利亞時期的歷史學家Sidney Lee、耶穌,以及英格蘭的皇帝查理二世(Charles II of England)

在德文維基,最著名的人是希特拉、歌德、阿里士多德、本篤十六世和柏拉圖。

在中文維基,是毛澤東、袁世凱、周杰倫、織田信長、德川家康。

在日文維基,是近代史研究者秦郁彥(Ikuhiko Hata)、德川家康、豐臣秀吉、希特拉、織田信長。

根據Gloor的團隊,這份名單展示的是:四種文化中橫越所有時代的最「重要的」人物。當然,歷史學家Sidney Lee和秦郁彥得以入選,是怪怪的。這是因為兩人可以連結到很多他們曾經書寫過的歷史名人。

另外,這份名單也似乎反映了東西文化的差異。

例如日文版本的維基的首五十位重要人物,全部是武士和政治家。中文維基的頭十名也大部份是武將與政治家。相反,西方的頭十和五十名卻有不少科學家、藝術家和宗教領袖。

還有些發現:在英文維基,有80%的「重要人物」都不是英格蘭人/操英語者(English);相反,在中文維基,絕大部份是華人/運用華語者(Chinese)。

參考:MIT Technology Review

You may also like...