專訪數庫創始人:通用大模型發展到極致,還有漫長的過程

【文/觀察者網 呂棟】
“我們現在主要在使用OpenAI的模型,同時我們也測試了一系列國內的大模型,他們的進步都很快,但目前來看,在成熟度上還可以進一步提高。”7月7日,數庫科技創始人兼總裁沈鑫在第六屆世界人工智能大會(WAIC)現場接受觀察者網專訪時説道。
他認為,如果通用大模型發展到極致的話,也就不存在什麼行業大模型了,但這是非常漫長的過程。因為能真正供大模型使用的高質量數據非常缺乏。比如能把金融相關數據標準做到很高的公司屈指可數,而這些公司肯定不會把數據貢獻給別人。

數庫科技創始人兼總裁沈鑫
沈鑫向觀察者網坦言,今天人類所處的是一個萬物互聯的世界,所有的產業是連接在一起的。以前可能分析芯片的和分析汽車的人士很少產生交集,但今天產業網絡是交織狀的,對人的分析能力要求非常高。在這種情況下,數據的連接和編織,對幫助人們做決策顯得尤為重要。
他同時也提到,這個世界不存在所謂的“魔術”,大模型也不會一下把所有問題都解決。因為大模型本身是一個效率工具,“我們現在會把大模型的一些技術融入到數據生產端,進一步去提升生產效率。這個實際上是我們看待大模型的一個點,不要為了技術而技術”。
數庫科技成立於2009年,由海歸的沈鑫和劉彥海創立,該公司主要是在金融及產業領域提供基於產業邏輯的智能數據產品與系統服務,幫助金融機構、企業集團、政府部門解決業務場景中的數據和系統需求。
在本屆WAIC現場,觀察者網體驗了數庫科技發佈的概念型產品圖譜——istari,用户輸入問題用大語言模型解析後,即可轉化成統一產品知識圖譜(UPG)相關的查詢,呈現出相關的專業產業知識以及各個知識點之間的關係,該產品主要通過大模型來做產業關係的推演。
以下是專訪實錄:
觀察者網:今年數庫的展台比去年要大,重點在展示哪些內容?
**沈鑫:**相比去年,今年展出的內容更多是增強和產品化。比如説銀行對公,去年是方案,今年是標準化產品。因為隨着時間推移,公司想要發展的話,產品化程度必須越來越高。目前數字化轉型大家還都在摸索,隨着接觸的客户越來越多,我們要把其中共性的需求提取出來。因為我們的目標並不是只服務於頭部金融機構,還要服務於數量眾多的中小銀行,他們可能沒有那麼多資源和能力,在這種情況下,標準化產品對他們來説就很重要。而且他們在體會到標準化產品的好處之後,才更有決心和信心投入更多成本去做的更加精細。
觀察者網:連續參展世界人工智能大會,數庫業務是怎麼跟人工智能技術結合的?
**沈鑫:**技術永遠是工具,所以數庫將大量人工智能技術用在數據生產、數據解析和數據編織三個層面。技術賦能是底層能力,我們從來不直接拿技術去變現,這種級別的炫技沒有意義。一個公司要想可持續發展,關鍵是要夯實底層能力。就像運動員一樣,平時做的最多的反而是體能訓練,雖然最後真實發揮的水平跟心態也有關,但底層能力還是最核心的。
觀察者網:數庫現在利用的人工智能底層技術能力有哪些?
**沈鑫:**我們在分析和解析不同類型數據時,會用到各種各樣的小模型,比如説NLP(自然語言處理)等。我們以前不做需要海量人工標註的數據集,因為這會降低毛利率。但今天通過大模型,我們可以做海量數據標註,具體是先通過小模型把大的段落拆成小的,再用大模型把關鍵要素提取出來。通過把工程化的技術整合到一起,再把數據工廠做進一步的增強。
觀察者網:目前數庫所利用的模型能力,是自研模型,還是使用市場上的模型?
**沈鑫:**我們不會自己去做大模型,因為大模型是一個長期投入才能出效果的技術,適合大廠來做,而且大模型也有現成的。數庫現在也在接入OpenAI,國內的大模型像百度的文心我們也在測試。我們在垂直領域中用好工具就行了,而且可以誰的大模型好用就用誰的。我們更專注垂直領域,包括金融機構也不可能自己去研發大模型,也是用現成的。因此我們一方面要把市場上大模型的水平認知清楚,另一方面我們要把客户需要的東西兼容上去。
觀察者網:目前數庫主要在和市場上哪些大模型合作?
**沈鑫:**我們現在主要在使用OpenAI的模型,同時我們也測試了一系列國內的大模型,他們的進步都很快,但目前來看,在成熟度上還可以進一步提高。
觀察者網:如何看待大模型的應用?
**沈鑫:**這個世界不存在所謂的“魔術”,大模型也不可能一下把所有問題都解決。因為大模型本身是一個效率工具,我們現在會把大模型的一些技術融入到數據生產端,進一步去提升生產效率。這個實際上是我們看待大模型的一個點,不要為了技術而技術。
觀察者網:如何看待通用大模型和行業大模型之間的應用場景衝突?
**沈鑫:**如果通用大模型發展到極致的話,我覺得也就不存在什麼行業大模型,但這是非常漫長的過程。能夠真正供大模型使用的高質量數據是非常缺乏的。
比如我們行業裏,能把金融相關數據標準做到很高的公司,可能掰手指頭都數得出來,而這幾家肯定不會把數據貢獻給別人。所以它其實是一個漫長的過程,沒有大家想象得那麼快。另外一個點,很多的場景是不需要用到大模型的。可能在諮詢服務類的場景中大模型有很大的用場,但是在金融這種對數據要求很嚴謹的行業內,大模型實際是沒有意義的,因為回饋是相對比較模糊的。
觀察者網:應該怎樣理解數庫的業務,或者説數庫是如何使用數據的?
**沈鑫:**我們是把市場上所有看上去像孤島的數據融合連接起來。在這樣的數據網絡中,去尋找外界難以捕捉到的一些有用的信息點。因為人的思維總是有限的,能力再強的專家,可能也只是在一兩個領域比較專業,一旦跨領域可能就無能為力。今天我們所處的是一個萬物互聯的世界,所有的產業是連接在一起的。以前我們可能會説,分析芯片的和分析汽車的很少產生交集,但今天新能源汽車已經離不開芯片,產業網絡是交織狀的,對人的分析能力要求非常高。在這種情況下,數據的連接和編織,對幫助人們做決策就顯得尤為重要。
觀察者網:目前數庫研發人員的佔比大概是什麼情況?
**沈鑫:**我們現在有兩百多名員工,其中有一百多人在做研發,佔比超過一半,這些研發人員也在不斷夯實數庫的底層能力。當底層技術能力達到一定水平的時候,你就會發現數據提取能力和數據精度全部都在上升。這就跟中國發射火箭探月一樣,航天技術一旦突破,所有的技術點在民用領域都會整體提升。
觀察者網:數庫現在的營收大概是什麼樣的水平,未來有沒有IPO的計劃?
**沈鑫:**我們的營收已經破億了,去年業務體量翻了三倍,今年還要再翻一倍。我覺的無論是IPO也好,還是未來任何資本市場的出路也好,都取決於公司的基本面,也就是有沒有真正為客户創造價值。
本文系觀察者網獨家稿件,未經授權,不得轉載。