廈大團隊利用AI大模型探索甲骨文考釋新途徑
【環球網科技綜合報道】12月5日,據廈門大學公眾號消息,廈門大學信息學院自然語言處理實驗室史曉東教授團隊申報的“基於甲骨文多模態大模型的多元信息甲骨文輔助考釋模型”項目,成功入選“探元計劃2024”的“創新探索型項目”TOP10榜單。

甲骨文,作為世界四大古文字之一,距今已有三千多年曆史,被譽為現代漢字的根脈。然而,傳統的甲骨文字考釋工作卻異常艱鉅,需要考古專家憑藉深厚的知識積累和大量的文獻閲讀,通過字形分析、辭例研究等方法進行人工釋讀。隨着AI技術的迅猛發展,利用深度學習模型的強大語義表示能力來輔助甲骨文的考釋工作,逐漸成為了一個新的研究方向。

針對甲骨文數據稀缺且圖像質量參差不齊的現狀,廈大團隊系統整理了相關古文字數據,構建了一個更大規模、更高質量的甲骨文多模態數據集。在此基礎上,他們提出了“基於甲骨文多模態大模型的多元信息輔助考釋模型”的技術方案,旨在通過AI技術提升甲骨文考釋的效率和準確性。
該項目將設計一系列與實際考釋過程密切相關的任務和評估方法,包括跨字體圖像映射、跨字體IDS(表達結構的部首偏旁序列)解碼以及甲骨字與現代字的對譯關係等。這些任務和方法的設計,旨在有效訓練多模態大模型,利用其跨模態的理解能力來輔助甲骨文的考釋工作。
此外,項目團隊還計劃在大模型提供的語義嵌入基礎上,設計融合音、形、義、用多元信息的端到端甲骨文綜合考釋模型。這一模型將綜合利用字形結構、語義關聯、同音通假和用法聚類分析等多種方法,開發一種更加輕量的考釋系統。該系統旨在適應資源有限的實際考釋場景,為甲骨文的考釋工作提供新的解決方案。
據悉,“探元計劃2024”是由國家文物局科技教育司指導,聯合中國文物信息諮詢中心、騰訊SSV數字文化實驗室、騰訊研究院、社會價值投資聯盟(深圳)以及中國文物報、紫荊雜誌社共同發起。(文智)