18世紀就有GTA?詞頻統計器裏的另一部“近現代史”_風聞
游戏研究社-游戏研究社官方账号-2022-01-09 08:20

數據並不是萬能的。
2010年12月,谷歌與哈佛大學合作推出了科學實驗項目“Google Ngram Viewer”,中文翻譯為“谷歌圖書詞頻統計器”。
簡而言之,這個統計器是針對圖書出版物的一種“谷歌趨勢”。統計器提供關鍵詞搜索,搜索的範圍是谷歌的數字圖書館“谷歌圖書”,分析關鍵詞在圖書、報紙、期刊中出現的頻率,並按照年份依次排開,最終基於用户給定的時間跨度,提供一條顯示關鍵詞流行及發展趨勢的曲線。

橫軸為年份,縱軸為詞頻
在語言學範疇上,谷歌給定的文本範圍可以被稱作一種“語料庫”,而谷歌語料庫可能是迄今為止最大的人文及社會科學研究語料庫。
剛上線時,谷歌語料庫中擁有超過500萬本圖書,佔世界上所有已出版書籍的4%,其中以英語書佔多數。2020年7月,谷歌語料庫更新至2019版本,收錄從1500年到2020年2月的書籍文本,涵蓋英文、簡體中文、法文、德文等八種語言,圖書數量已超過千萬本。
谷歌表示,詞頻統計器得出的數據允許免費下載並用於任何用途,因此這項工具受到歐美學術界的熱烈歡迎與頻繁引用。
然而,更多的人把統計器用在了不那麼學術的用途上。在以造梗與玩梗著稱的互聯網民中,流傳着這麼一種玩法:用詞頻統計器搜索一些21世紀才出現的流行語及特有名詞,等待統計器提供一條令人細思恐極的曲線。
例如像下面的視頻那樣,在搜索框輸入“Grand theft auto”——也就是GTA的全稱,你就會發現GTA在1770年左右擁有比21世紀還要高的詞頻。
也許,歷史老師在講授那段歷史時,有意向你隱瞞了些什麼。
1
詞頻統計器的這種玩法,是由法國人率先發現並大加傳播的。至少在第二次世界大戰之前,法國一直是公認的歐洲乃至世界強權,而詞頻統計器對那段歷史的學術研究貢獻之大,也許喚醒了他們對光榮時刻的追憶。
2020年7月27日,谷歌更新2019語料庫沒多久,法國網友PasEdward使用統計器的法語語料庫,搜索了一個俚語單詞:“Wesh”。這個詞源自阿爾及利亞語,約在上世紀90年代傳入法國,意思相近於英文中的“What’s up”,中文裏的“嘿”或“發生了什麼”。
結果顯示,趨勢曲線在1800年的位置上出現了一次波折,意味着“Wesh”在1800年的著作中有使用記錄。雖然不明白原委,PasEdward還是把自己的發現放到推特上分享,同時配上一張簡陋的P圖,為法國大革命時期的著名政治家羅伯斯庇爾戴上了一頂現代帽子。

第二天,另兩位法國網友搜索了一些歐洲歌手的名字,並在18-19世紀這一區間內找到了對應的索引結果。他們隨即把歌手的頭像P到法國國王路易十四與路易十六的畫像上,同樣上傳至推特。

推特@30SecondsDamso

推特@Sitam37
不久,詞頻統計器的新玩法流傳至英語圈及短視頻應用TikTok。結合法國人的創作成果,短視頻作者們確立了一種兩段式的視頻模式,為統計器成為新興網絡梗奠定了基礎:
首先使用統計器搜索當下的流行人物與事物,得到相關詞彙曾在21世紀以前被使用的記錄;然後動用P圖與剪輯技術,製造出可能用到這一詞彙的歷史場景。

Aimbot,射擊遊戲的自瞄外掛
最早“出現”於1776年美國獨立戰爭

“華盛頓將軍,我們要輸了”
“不用擔心兄弟,超級瞄準已部署”
圖源TikTok@phattboyyy
時間來到2021年,統計器的熱度有所消退,可是又在法國人的努力下迎來了一次復興。
2021年10月10日,法國網友qouaa依照上面的格式製作了一部短視頻,他搜索的詞彙是“Fdp”,意思與英文中的“Son of Bitch”(婊子養的)接近。趨勢曲線在1700年左右有所上漲,接下來的一幕中出現穿着潮牌説着髒話的路易十四,也顯得順理成章。

這則短視頻僅在一週內獲得了超過300萬次播放,也正式掀起了使用谷歌圖書詞頻統計器“考據”的風潮。從TikTok、Youtube,甚至到國內的B站,相同格式的視頻不斷湧現,視頻作者致力於將那段“可能被埋沒的歷史”重現於世間,搜索關鍵詞也五花八門。
詞頻統計器告訴我們,16世紀有PC(個人電腦),17世紀有RGB(最常見的顏色系統),證明近代歐洲人已經在使用電腦,並且對電腦硬件上的彩光特效情有獨鍾。

TikTok@thadspcs

TikTok@cinebench
硬件在發展,編程語言肯定也在進步,1817年的程序員用Java寫個程序,好像也沒啥值得大驚小怪的。

Youtube@1m
詞頻統計器還顯示,17世紀以來的推特使用率居高不下;到了第一次世界大戰時期,才輪到短視頻應用紅極一時。

莎士比亞推文:“生存還是毀滅”
圖源Youtube@Daaninator

一戰導火索:斐迪南大公遇刺的珍貴短視頻影像
圖源Youtube@Techlin
在音樂方面,邁克爾·傑克遜的名號響徹了整整兩個世紀,而瑞克·艾斯利大概從17世紀起就開始唱流行金曲了。


Youtube@MyCoolJacksonTV

圖源Youtube@Manuel Vsp
二次元文化也盛行了幾百年,據悉在第二次世界大戰爆發時,世界上最受歡迎的日本動漫是《火影忍者》。

TikTok@dzvjk__senpai

把搜索關鍵詞換成今天的電子遊戲,同樣會得到令人們瞠目結舌的新發現:我們玩到的遊戲其實都是老祖宗們玩剩下的。

16世紀的《絕地求生》
圖源TikTok@wncem

17世紀的《Apex英雄》
圖源TikTok@zrunez_

1945年的《我的世界》
圖源Youtube@Daaninator
老祖宗們甚至有着在遊戲結束時打出“GG”(Good Game)的習慣,這大抵體現了他們對禮儀的規範與注重。

Youtube@Techlin
2
代表權威數據的谷歌圖書詞頻統計器,改出了太多令網友們啼笑皆非的“野史”。不過需要注意,統計器出現這種差之千里的謬誤,有時也不全是數據的錯。
假如你出於好奇打開統計器復現網友們的搜索結果,就會發現一些結果與視頻畫面對不上。視頻作者可能通過修改網頁元素或者嫁接P圖、剪輯的方式,製作了假的趨勢曲線。
舉例而言,前文中提到過的Aimbot(自瞄機器人),在1893年以前的著作中毫無記載。

Case-Insensitive選項能夠得出區分大小寫的結果
在B站有人查到“shabi”一詞最早在美國《獨立宣言》頒佈的1776年出現,這也不符合真實索引結果。至少在谷歌英語語料庫,這個詞的純小寫形式直到1824年才首次有人使用。

就算查到了與視頻中一模一樣的趨勢曲線,也不代表真實索引結果具有足夠的説服力。網友們輸入的單詞或詞組,可能對應多種含義,而谷歌的程序尚且無法做到劃分不同語義的程度。

《我的世界》遊戲風靡全球前
Minecraft一般指海軍的佈雷與掃雷艇
例如,PC、RGB、GG等特定詞組的縮寫形式,結合不同文本語境,可指代無數種具體事物;有時還會用作人名或機構名稱的縮寫。如果不進一步限定搜索範圍,得到的結果不會有規律可循,自然缺乏應有的參考價值。
直接使用統計器搜索某個人名,也不是值得過多提倡的行為。歷史記載中同名同姓者多如牛毛,更不用提老外的人名大多出自聖經,擁有遠比中文誇張的重複率。
另外,TikTok與Twitter,本就是英語中的擬聲詞,在百餘年前的英文著作中出現也根本不稀奇。

1880年的一本詩集中用twitter一詞形容鳥叫
當然,玩梗沒必要太過當真,本文也無意否定任何作者為了博觀眾一笑所耗費的大量心血,僅是指出在一部分視頻中,作為工具本身的谷歌詞頻統計器沒什麼需要指摘的地方。
而在另一些關鍵詞較為明晰的案例中,詞頻趨勢曲線在20世紀前的增長態勢有跡可循,使得統計器間接起到了反映歷史與社會變動的職責。
世界意義上的近現代史,正是各大洲各民族建立緊密聯繫的關鍵歷史時期,不同文化的交流與衝突,勢必為包括英語在內的各種語言帶來數不勝數的外來詞彙。
前文提到的Java在當下的語境中常指一種編程語言,放到殖民時期多半指的是16世紀初由葡萄牙殖民者發現的東南亞爪哇島。今天的Anime是由日語的“動漫”一詞音譯而來,然而百餘年前的英國水手聽到這個詞,頂多聯想到美洲大陸出產的某種樹脂。

1908年《英華大辭典》中對anime一詞的解釋
Shabi一詞在19世紀出現幾率很高,是因為英國的殖民統治達到鼎盛,進而與東方文明產生了空前的交流。Shabi常出現在與中國、印度、阿拉伯文化相關的英文著作中,指代的意思各不相同,放到中國是“沙弼”,即沙彌、小和尚一詞的音譯;放到阿拉伯語裏就變成了慣用的人名。


3
雖然我們使用統計器的方法有時不太科學,但谷歌的工具也絕非完美無瑕。事實上,早在谷歌圖書詞頻統計器誕生伊始的2010年,就已經有學者吐槽過某些21世紀特有名詞在語料庫中的“穿越”現象。

網友們頗有微詞時會把微詞變成梗,而學者們的微詞會變成學術研究與學術論文。近幾年來的研究調查證明,谷歌的數據也沒那麼權威,其統計器與語料庫存在的問題可不少。
最致命的問題是文本掃描錯誤。將圖書掃描成電子文本所使用的光學字符識別技術,簡稱OCR,其可靠程度會根據圖書的印刷質量產生浮動,在讀取百餘年前的文本時總是會出錯。
以前的英文著作經常把字母s寫作作形近於字母f的“長s”,直至18-19世紀印刷技術取得長足進步,“長s”才漸漸消亡。谷歌的OCR一度識別不出“長s”,導致許多帶有s與f字母的單詞之間產生可怕的混淆,直至2019年穀歌語料庫更新,這一錯誤才得以大幅修正。

詩集《失樂園》(Paradise lost)的標題頁
小寫的字母s基本都印作“長s”
但有些相比之下並不明顯的錯誤至今依然存在。就以網友們玩梗提出的那些關鍵詞為例,把谷歌圖書的搜索結果搬來和統計器作下對比,便會明白OCR偶爾會錯到十分離譜的地步。
19世紀及以前的英文印刷品經常出現每行或每頁末尾寫不下完整單詞的情況,印刷商會在沒寫完的單詞後接上一根橫槓“-”,讓讀者去下一行或下一頁找到單詞的後半部分。正是這個“-”,會被OCR識別成字母,像是“pub-”,就會出現在《絕地求生》縮寫“pubg”的搜索結果中。


一些形近意思卻完全不同的單詞或詞組,對於OCR而言亦是災難。如“Infernet”,這個法國人的姓氏經常被錯認為“Internet”(互聯網);“fortune”(幸運)或是“for these”(為了這些),更是會被陰差陽錯地識別成《堡壘之夜》的英文名“fortnite”。

谷歌掃描圖書時,需要填充圖書的標題、出版日期、作者、頁數等元數據。這一過程與OCR類似,都由程序自動進行,因此也有漏洞。
文章開頭視頻中的GTA,即“grand theft auto”,在美國對應一種盜竊機動車的罪名。在谷歌圖書搜索“grand theft auto”,並把搜索時間限定至18世紀的話,我們會查到一部實際在1981年出版、文中多次提到GTA的美國加利福尼亞州議會法案,它的出版日期被谷歌錯標成了“1771年”。


單是這一本書的標註錯誤,就貢獻了一條篡改歷史的趨勢曲線和一部讓數百萬人忍俊不禁的玩梗視頻。如今各個視頻網站類似的視頻數以千計,而語料庫中OCR與元數據出錯的文獻,恐怕還不止這個數量。
當然,任何科學測量工具都不可能做到百分百完美,數據與算法也不例外。能夠在短短數秒之內完成定量分析,得出某種事物在數百年中的大致發展動向,正是谷歌圖書詞頻統計器的價值所在。
不過,在這個語料庫不知何時才有的下一次更新之前,這些謬誤將一直作為網友們造梗的源泉而存在,這大概是開發者所沒有想到的了。