海外古籍數字化迴歸,上手試了試古籍落地平台…_風聞
张照栋-观察者网编辑-2021-05-20 20:20

【文/觀察者網 張照棟】
近日,一批珍藏於加州大學伯克利分校的中文古籍善本,以數字化方式迴歸故土,落地阿里達摩院開發的“漢典重光”古籍數字化平台。據悉,首批20萬頁古籍已完成數字化,並沉澱為覆蓋3萬多字的古籍字典,公眾可通過漢典重光平台翻閲、檢索古籍。
海外古籍數字化迴歸的消息,讓一眾網友拍手叫好;但對於阿里達摩院開發的“漢典重光”古籍數字化平台,網友們卻態度不一……
視頻來源:微信公眾號“達摩院DAMO”
5月18日下午,中國海外古籍“數字化迴歸”項目“漢典重光”平台在北京中國科技館正式發佈,通過先進的人工智能(AI)技術,一批珍藏於美國加州大學伯克利分校的中文古籍善本,以數字化方式迴歸故土,落地“漢典重光”古籍數字化平台。
首批數字化的20萬頁古籍中,包含40餘種珍貴宋元刻本、寫本,如宋刻本《後村居士集》、北宋《金粟山大藏經》寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業堂、密韻樓的抄本,還有命運多舛的清文瀾閣《四庫全書》零本等,很多都是消失多年後重回公眾視線的珍本。

文瀾閣版《宋百家詩存》(卷七)
海外古籍數字化迴歸的消息,讓一眾網友拍手叫好。




承擔此次海外書籍數字化迴歸任務,由阿里達摩院開發的“漢典重光”古籍數字化平台,也受到關注。
根據微信公眾號“達摩院DAMO”介紹,古籍數字化完整流程主要分為採集側、數字化生產側、和應用測三個環節。採集側主要是將紙質書變為電子掃描版,數字化生產側時間電子掃描版變為文字版,應用側則是將文字版變為古籍研學系統,涵蓋檢索、字典、知識圖譜等功能。
此次首批海外古籍數字化迴歸的工程的分工十分明確,採集側由加州大學伯克利分校東亞圖書館分校完成,而阿里達摩院和四川大學共同完成另外兩個步驟。

為了將伯克利提供古籍的掃描圖片和編目數據全部文字化,達摩院技術團隊與四川大學專家聯手研發了一套可以邊識別古籍、邊訓練模型的全新AI古籍識別系統,以97.5%的準確率完成了對20萬頁古籍的整體識別,並沉澱為覆蓋3萬多字的古籍字典,比起專家錄入,這套人機交互的識別系統將效率提升了近30倍。
此次承接海外古籍數字化迴歸的“漢典重光”古籍數字化平台,運用的正是這套系統。
筆者登錄“漢典重光”古籍數字化平台,在檢索欄輸入最近引發討論的“刺史”二字,該平台所收錄的古籍中,所有出現“刺史”二字的書籍一一呈現,並且精確到具體頁面。
點擊搜索結果,就會進入相應的古籍頁面,而出現“刺史”二字的地方,也會用半透明藍框標出。


截圖自“漢典重光”古籍數字化平台
但除了關鍵字檢索功能,以及可以將古籍圖片最大放大至3倍的功能外,“漢典重光”並無其他功能。

古籍《莊子通》放大3倍後 的《逍遙遊》片段 截圖自“漢典重光”古籍數字化平台
不少網友在“漢典重光”古籍數字平台上體驗過後,紛紛點贊。
“效果比想象中的好,支持縮放和關鍵字搜索……”



但也有網友的體驗效果並不是很好。
“一股塑料質感…”

“部分書籍需要放大多倍才能閲讀,更不用説有些批註與背面的批註重疊導致識別困難。”

“別的圖書館古籍掃描,可以下載文件到本地,它這只能在線閲讀,體驗還極差。”

除了體驗效果外,還有網友還認為許多國外圖書館都已經開放相關資源,這件事技術含量不高。這件事的重點不在海外,而在國內,國內圖書館對中國古籍善本資源的開放做得很差。
“國外很多藏書機構已自行公佈高清資源,這件事技術含量不大……中國古籍善本的資源公開做得最差、系統差、圖像渣,瀏覽體驗也最差。”

“很多海外的文獻本身即是開放的……與其攻關海外,倒不如先讓國內的圖書館開放自己的古籍資源來的實在。”

“説真相真的很尷尬!在國內看古籍文獻真的很難,很多時候還要看身份……”


也有網友表示,“漢典重光”古籍數字化平台將流散海外各處的書籍集中一處,便於國人檢索,與國內古籍網絡化並不矛盾。

隨即有網友反駁道:“沒有針對普通讀者的配套導引,也沒大意義,重點不在所謂的海外古籍網絡迴歸,而在於用户體驗。”
