當甲骨文遇見人工智能
想象一下,3000多年前刻在龜甲獸骨上的神秘字符,與秒速處理海量數據的人工智能相遇,會擦出怎樣的火花?這並非科幻小説,而是正在現實中上演的“穿越故事”。
故事的起點,要追溯到2003年4月的一堂數據庫課。那時,我自信滿滿地為本科生講解數據導入知識。突然,一隻手高高舉起:“老師,甲骨文如何輸入輸出?”我盯着黑板,陷入深思。甲骨文和計算機技術能有什麼關聯?
當時,我們學校的計算機繫有團隊已經在研究“電子甲骨文”,併成功開發出“甲骨文輸入法”。我迫不及待地加入了。團隊成員大多來自計算機專業,大家一邊艱難地啃讀艱深的甲骨文學術書籍,一邊思考如何用代碼這把“神奇鑰匙”復活那些沉睡千年的古老符號。
2008年,團隊中的劉永革教授申請的“基於甲骨文語料庫的計算機輔助考釋技術研究”獲批國家自然科學基金項目。我們意識到,計算機可以成為甲骨文研究的“超級助手”。
團隊開始了漫長的甲骨文語料庫探索。我們陸續攻克甲骨文輸入輸出、甲骨文電子字典、甲骨文語料標註等若干問題。團隊也受到更多關注,2017年獲批教育部科技創新團隊,2018年獲批教育部重點實驗室立項建設。2019年10月,在中國社科院學部委員宋鎮豪帶領下,我們推出專業化甲骨文數據平台“殷契文淵”。經過5期的持續建設,這個平台就像一個裝滿甲骨文知識的“超級大腦”,不僅能幫研究者快速查找甲骨文的字、圖、文,還能利用AI數字工具箱輔助專家整理甲骨文資料,更提供了多個人工智能算法應用必不可少的甲骨文數據集。2024年,甲骨文AI協同平台上線那天,全球的甲骨文愛好者都湧了進來,留言區滿是驚歎:“原來甲骨文離我們這麼近!”它的出現,讓甲骨文研究大步邁入人工智能時代。
在甲骨文數據平台的不斷完善中,我們搭建起全球甲骨數字守護技術體系。這個方案就像一張精密的大網,將甲骨採集、整理、檢索、拼接等流程都納入其中。在甲骨數字化採集現場,多光源攝影設備如同不知疲倦的眼睛,從不同角度捕捉甲骨的每一處細節;基於表面深度增強的圖像合成技術,則像一位技藝高超的修復師,將原本模糊的契刻痕跡、卜兆裂痕高保真還原。面對一塊表面斑駁的甲骨,合成後的圖像竟清晰顯現出專家肉眼都難以辨別的微小刻痕,這些細節為研究甲骨字書寫順序和甲骨鑽鑿甚至占卜過程提供了重要線索。
面向甲骨文的AI摹本生成技術、AI查重技術、AI字形檢測技術、微痕成像技術等令人驚歎。以甲骨文摹本生成技術為例,過去手工臨摹甲骨文不僅耗費大量時間和精力,還容易產生主觀誤差。如今,算法模擬人工臨摹的過程,能夠精確勾勒出每個甲骨文字的形態特徵。看着機器快速生成的高精度數字摹本,我不禁感慨,這不僅解放了人力,更為甲骨文的保護和修復工作奠定了堅實的數據基礎。
2024年,“數字甲骨共創中心”成立。今年則對我們更重要,一是開啓歐洲甲骨數字迴歸之旅,二是舉辦“AI+甲骨文”邀請賽,全力以赴推出甲骨文大語言模型,聯合社會各界一同打造“最懂甲骨文的AI”,構建“科技+文化”的中國方案。
當然,我們也面臨諸多挑戰。目前,人工智能對甲骨文的理解還不夠“智能”,遇到甲骨殘片、模糊甲骨字尤其是未釋甲骨字時,依然會“卡殼”,專業研究文獻的異構化、碎片化問題依然需要更強大的技術支持。未來,我們還將帶着這份熱愛,繼續前行,讓甲骨文在數字時代綻放更耀眼的光芒!
(作者單位:安陽師範學院甲骨文信息處理教育部重點實驗室)