阿里雲數據庫NL2SQL技術獲國際權威評測第一名
日前,阿里雲數據庫參加耶魯大學Spider數據集評測,以78分的成績排名榜單第一。這一成績證明了阿里雲數據庫在NL2SQL技術上的國際領先性。據瞭解,Spider是業界公認的大規模跨領域複雜NL2SQL轉換效果的評測榜單。

NL2SQL(Natural Language to SQL)是一項將用户的自然語句轉為數據庫可執行SQL語句的技術,對改善用户與數據庫之間的交互方式有很大意義。Spider數據集是耶魯大學提出的一個較大規模的NL2SQL數據集,包含了10000多條自然語言問句,內容覆蓋了100多個不同的領域,貼近真實場景,難度非常高。

日前,阿里雲數據庫團隊研發的CatSQL技術參加評測,並獲得Spider數據集評測第一名的好成績。78分的成績,顯著超過第二名0.4分,尤其是模型規模僅為第二名的1/7,且計算速度提升10倍以上。
達摩院智能數據庫實驗室負責人譚劍介紹:為提升NL2SQL轉換效果,現階段業界的一個趨勢是使用越來越大的模型,而在這次測評中,阿里雲數據庫團隊另闢蹊徑,採用了小模型,在獲得了幾乎一個數量級的吞吐率提升的同時,還取得了更好的準確率;該方法也開闢了NL2SQL的一個新思路,即把自然語言技術與數據庫領域知識緊密結合,從SQL語義的角度提升NL2SQL的準確性,也更加保證了在實際商用場景中的有效性。
譚劍表示,“最新的成績説明,NL2SQL技術已經日臻成熟,在準確性和實用性上逐漸達到了部分複雜場景的商用要求。”
據透露,阿里雲數據庫團隊在NL2SQL方向上已經進行了兩年多的自研工作,並已經把這些前沿技術在相關數據庫產品中落地使用,有效的簡化了用户查詢數據庫的方式。比如,阿里雲數據庫的一站式數據管理平台DMS上,就採用了自研CatSQL技術,通過自然語言交互的方式幫助客户更高效的進行數據資產管理。
據瞭解,阿里雲自成立以來就十分重視數據庫前沿技術研究,併為此成立專門的研究機構——達摩院數據庫與存儲實驗室。過去幾年,阿里雲數據庫團隊有50多篇論文被國際頂級會議和期刊收錄,獲得了近千項國內外專利,並實現自研數據庫擁有存儲計算分離、三層解耦、多主架構、HTAP、Serverless、一體化分佈式、全加密、智能與自治化等創新能力。
公開資料顯示,阿里雲擁有國內最豐富的雲數據庫產品家族,雲數據庫市場份額位居國內第一。據國際權威機構Gartner年度全球雲數據庫魔力象限評估報告,阿里雲作為中國唯一的科技公司代表,於2020年和2021年連續兩年進入領導者(LEADERS)象限。這標誌着中國數據庫40年來首次進入全球頂級數據庫行列。