高新區——“數典工程”建設初見成效收錄大數據術語兩萬餘條
作者:杨婷
本報訊 記者從貴陽高新區中電科大數據研究院有限公司瞭解到,公司數典工程研發團隊的工作已取得了階段性成果,收錄大數據術語突破2萬條數據模型200個。
“數典工程簡單來説就是打造一本大數據領域的詞典,就像我們經常使用的新華詞典一樣,是用於規範大數據技術發展與融合應用的一種基礎工具。”該公司劉汪洋博士介紹,如今,數據要素正在成為推動整個數字經濟發展的重要要素,但由於大數據的發展過程中存在一些規範性不強的問題,數典工程可以更好地去引導大數據的規範發展。
2019年,“數典”這一概念首次在數博會上被提出,同年5月,貴陽高新區中電科大數據研究院有限公司啓動了“數典”策劃論證工作,針對數據釋義與內容格式不規範、數據標準難統一等問題,提出打造中國最大規模的數據基礎資源集智平台——數典工程。秉承“工具化、平台化、開放化”的建設理念,構建以數典理論為基石、以大數據詞典為核心、以數典平台為載體、以標準規範為保障並拓展多項數據服務的“3+3+N”體系架構。
經過數典工程研發團隊近一年的工作,如今,圍繞數據領域模型為“語法結構”的大數據“語言體系”已經初步成型,其中已收錄“大數據+行業應用”相關術語詞條2萬餘條,構建數據模型約200個以及公安、檢務等行業領域描述模型50餘個。
“數典工程可以有效解決數據規範定義、統一標識、系統分類以及數據融合應用等帶來的困難,避免造成數據‘難用、濫用、混用’等現象。”劉汪洋博士説,打造數典是一項承前啓後的基礎性工程,對鞏固大數據成果、引導大數據規範發展具有重要的意義。
(貴陽日報融媒體記者 楊婷)