數據庫將駛入AI快車道,阿里雲開源全新技術PilotScope_風聞
Tech星球-Tech星球官方账号-聚焦互联网前沿科技和新商业。2小时前
來源 | 新言科技
文 | 賈寧宇
12月20日,數據庫國際頂會VLDB2024公佈新一批論文,阿里雲新技術PilotScope成功入圍,該平台技術可實現AI算法在數據庫的“一鍵部署”,極大降低數據庫中AI算法的應用門檻,為數據庫智能化開闢了全新道路。
同日,阿里雲宣佈將PilotScope全部技術免費開源。
數據庫智能化為何難?
數據庫是事關國計民生的基礎軟件技術,數據庫技術的更新影響着數字時代的千行百業,其中一個前沿領域即是數據庫智能化(AI4DB,AI for Database)。
現在的數據庫系統非常複雜,對穩定性要求極高,即便將單一AI算法與單一數據庫作匹配調試,也需要雙方工程師緊密配合數週甚至數月,效率低、效果差。
更常見的情況是,AI工程師不懂數據庫細節,數據庫開發者用不明白AI,兩個領域連編程語言都不通(AI開發多用Python,數據庫多是C/Java),很容易造成割裂。
通常來説,工業界公司會選擇直接在數據庫中直接嵌入一些AI算法,以替換數據庫的某些功能模塊,比如做好一個更加智能的查詢優化模塊。但這種定製化的方法開發、維護、升級的成本很高。每一次AI算法的升級和汰換,都需要重新做一遍開發流程。同時,改動數據庫的代碼庫也會給其帶來額外的風險。
也正因此,雖然AI發展日新月異,但在數據庫領域中,相關成果的落地仍方興未艾。
有沒有一種通用的平台技術,能更好地將AI算法更高效地落地進數據庫?
這成為阿里PilotScope項目團隊思考的起點。
“AI4DB,AI和DB兩端都有人做,但是這個連接處的橋,卻一直沒做好。我們想要為AI算法和數據庫之間搭一座公共的橋,使得雙方的溝通更加順暢。”PilotScope項目負責人朱鎔介紹説。
從0到1的交叉技術創新
朱鎔把PilotScope形容為數據庫AI“超級管理員”,通過PilotScope平台,AI工程師只需專注於設計通用的AI算法,可實現對不同數據庫的部署和應用;而數據庫使用者可像調用API那樣,方便又高效地用上AI。
這一想法,從構思到落地,花了約2年時間。“裏面涉及到算法和系統的交叉、AI和數據庫的交叉、研究和開發的交叉、學界和業界的交叉,是真正的交叉技術。”朱鎔説。
據他介紹,項目團隊通過在數據庫和AI系統級抽象和通用化模塊及接口定義,幾番打磨,最終研發出一個全新的中間件系統平台,讓AI算法在數小時乃至數分鐘內在數據庫內實現“一鍵部署”,也就是現在的PilotScope。
圖注:阿里雲PilotScope架構圖。
PilotScope針對參數調優、索引推薦、基數估計、查詢優化等數據庫主流任務,預置了10多種AI算法,並完成PostgreSQL和Spark等兩大主流開源數據庫的適配打樣。
實驗數據顯示,使用PilotScope將AI算法嵌入數據庫,較傳統“硬植入”方法,查詢優化等任務提速1到2倍不等,且PilotScope本身對部署產生的額外代價基本可忽略,表現突出。
圖注:PilotScope效果圖。
同時,PilotScope對數據庫“微侵入”,並設計了智能檢測、回退、隔離等機制,降低AI幻覺風險,在確保數據庫穩定性的前提下實現智能化提升。
朱鎔介紹説,此前,AI工程師和數據庫開發者要不斷配合打磨,數週甚至數個月都不一定能搞穩定,“藉助我們的PilotScope,幾個小時甚至幾十分鐘,就能直接上線測試了。這個從0到1 的技術創新,讓開發的效率大大提高了”。
開源撬動AI4DB產業化進程
目前,PilotScope論文成果已被VLDB收錄。VLDB評議認為,PilotScope基於應用場景開創性的系統設計,將開啓數據庫智能化的全新方向。
據瞭解,VLDB是數據庫三大國際頂級會議之一,每年僅收錄在學術界和產業實踐中產生重要影響的新成果,是權威的數據庫技術風向標,第50屆VLDB大會預計於2024年8月在中國廣州舉辦。
圖注:數據庫頂會VLDB2024。
朱鎔介紹説,PilotScope相關技術已通過GitHub及Modelscope魔搭社區對外免費開源,團隊希望藉助開源社區的力量,讓更多的AI算法和更廣泛的數據庫納入到PilotScope中來,與開發者一同探索更多的AI4DB創新。
同時,PilotScope已在阿里雲內部展開試點應用,為產業化部署作相應測試。
“AI4DB要落在真實生產環境才產生價值,我們希望PilotScope能真正做到這點,幫助千行百業的數據庫實現智能化的效率和效果升級。”朱鎔説。
附開源地址:
https://github.com/alibaba/pilotscope