新系統讓數據聚得好、存得起、用得活
◎本報記者 張蓋倫
2024年以來,中國電科旗下大數據產業企業易華錄有了一系列動作。其大力推進數據資產入表應用轉化工作,完成了政務數據、交通數據、醫療數據等一大批政府部門和公益部門的數據資產入表,引領和推動了數據要素化戰略向縱深發展。
這些進展的背後,發揮支撐作用的正是於今年獲得國家科學技術進步獎二等獎的一項成果——“多源異構數據湖的聚存算關鍵技術及應用”。
北京理工大學計算機學院院長王國仁為該成果第一完成人。近日,他在接受科技日報記者專訪時表示,這項已經落地實踐的科研成果,解決了多源異構大數據面臨的無法兼顧全模態與高質效,以及難以突破全週期存儲效能的極大化和全任務協同計算瓶頸等難題。
曾有專家預測,到2025年,我國將成為全球第一數據大國。但簡單的數據累加並不能產生效益,還需進行存儲、交易和治理,才能發揮數據的真正效用。王國仁表示,他們的研究,正是要讓數據聚得好、存得起、用得活。
在採訪過程中,王國仁最常説的話,就是“思路很簡單,我一説你就懂了”。彷彿武林高手,一招一式看似平實,又大有乾坤。
用人工智能“預判”
數據湖的概念於2010年左右被提出。它是一個集中式存儲庫,能以任意規模存儲所有結構化和非結構化數據;還可以按原樣存儲數據,並運行不同類型的分析。“數據湖其實就是一個大數據場景下的數據管理平台,可以支撐數據價值化、計算高效化和運行綠色化。我們的成果在這三方面都能發揮作用。”王國仁説。
光存儲的最顯著特性就是綠色節能,但要真正實現綠色,還需解決一個問題——數據抖動。
一般來説,經常被訪問的數據被稱為熱數據,而較少被訪問的數據被稱為冷數據。熱數據適合磁、電介質進行存儲,實現高性能訪問;而冷數據,則適合使用綠色節能、單位存儲成本低的光存儲介質。
訪問數據,其實就是把它從光介質中拿出,暫存到電磁介質之中;當數據完成了使命,再把它放回光介質。一來一回,就會出現數據的冷熱切換,也就是“抖動”。數據總在不同介質之間來回“折騰”,能耗就會增加,使得光存儲的節能效果打了折扣。
對此,王國仁想到了一個“思路很簡單的方法”,使光存儲的節能效果相較於磁盤存儲提高了90%以上。
王國仁説,這個方法就是在移動數據前,用人工智能進行“預判”,預測整個數據場將來的行為。“比如,我知道這把椅子從倉庫拿出來後,還有很多場合需要它,就先把它放在辦公室,隨時能用。”王國仁指了指自己身旁的椅子,“如果我知道,這把椅子以後很長時間都用不到了,那就把它放回倉庫,免得佔地方。”
光電分級存儲,實現了真正的節能,也為高密度光數據存儲的產業化掃除了重大障礙。
應對所有數據類型
還要解決的問題是“算”。
數據湖中的數據來源多樣,形態多樣,可謂五花八門。不同的數據,不同的任務,需要不同的處理方式。能不能找到一種方法“一統天下”,高效應對所有數據類型?
王國仁説,這個方法就是“抽象”。
王國仁解釋,不管是執行什麼任務,歸根結底,就是計算。大道至簡,核心無非加減乘除,所以,要找到底層邏輯,讓所有任務在算術上都變成同質的。這樣一來,處理不同任務,就變成了一個優化計算順序的問題。“利用這種思路,結構化、半結構化的數據都能應對,圖像,視頻,文字都可以處理。這也就是全任務協同優化計算新系統。”王國仁説。
要高效處理數據,還得保障數據的質量。“其實思路也很簡單。”王國仁説。
傳統保障數據質量的方法是“基於規則”的。比如,看到一頭三條腿的大象,在具備“大象應該有四條腿”的領域知識下,數據湖能將這一有缺陷的大象相關數據進行修復。但是,我們很難對所有類型的數據都事先定義規則。那麼,能不能在沒有相關領域知識的情況下修復數據?王國仁介紹,可以通過語義驅動來補足規則定義的不足:先通過模型學習何為常識,再在大語言模型的幫助下判斷數據的準確性,然後進行修復。
王國仁團隊從2008年起就開始研究數據的聚合、存儲和計算,已經有了長時間的積累。如今,圍繞多源異構數據湖的聚合—存儲—計算,其團隊取得了跨模修復與多模融合、藍光存儲與智能調度、批流融合計算與混合查詢優化等技術創新。
近年來,王國仁主動找到數據庫龍頭企業建立合作。團隊和企業合作研製出的數據湖系統,推動了我國大數據管理領域的發展。成果已經服務於智慧城市、智能公安、智慧醫療等領域,並支撐全國首個數據銀行建設。