Databricks以13億美元收購生成式AI初創公司MosaicML - 《華爾街日報》
Angus Loten and Belle Lin
阿里·古德西是Databricks的首席執行官。圖片來源:David Paul Morris/彭博新聞Databricks已同意以約13億美元的價格收購生成式人工智能初創公司MosaicML,此舉旨在滿足企業快速增長的構建類似ChatGPT工具的需求。
總部位於舊金山的數據存儲和管理初創公司Databricks表示,該交易將其支持AI的數據管理技術與MosaicML的語言模型平台相結合,使企業能夠利用專有數據自行構建低成本的語言模型。目前,大多數企業依賴於基於網上公開數據訓練的第三方語言模型。
同樣位於舊金山的MosaicML成立於2021年,將成為Databricks旗下獨立運營的服務。據聯合創始人兼首席執行官納文·拉奧介紹,該公司一直致力於降低使用生成式AI的成本——從每模型數千萬美元降至數十萬美元。MosaicML現有62名員工,迄今已融資6400萬美元。
該交易預計將於Databricks截至7月31日的第二季度完成。
生成式AI應用程序旨在根據用户的自然語言提示生成原創文本、圖像和計算機代碼。自去年11月AI初創公司OpenAI推出在線生成式AI聊天機器人ChatGPT以來,該技術引發了廣泛關注。
諸如Anthropic和OpenAI等公司向企業授權現成的語言模型,企業隨後基於這些模型構建生成式AI應用。由於市場對這些模型強烈的商業需求驅動,生成式AI市場急劇擴張——這為像MosaicML這樣的初創公司創造了機會,它們聲稱能以更低成本提供類似AI模型,並可根據企業數據定製。
“如果從零開始構建模型,你會清楚輸入的數據內容,“Databricks首席執行官阿里·戈德西表示。他指出,現成模型因已通過互聯網數據訓練而開箱即用,但其中包含的無關信息可能導致結果偏差。許多公司還對與外部供應商構建的模型中共享數據涉及的隱私和安全問題心存顧慮。
部分機器學習專家和AI供應商認為,像驅動ChatGPT這樣的大語言模型的計算與綜合能力優於小模型——後者雖然在特定領域功能強大,但能力終究有限。畢馬威美國人工智能負責人斯里卡爾·克里希納表示,數據管理方面持續存在挑戰,且確定哪些模型最適合特定用途仍需探索。
“數據始終是成功的關鍵因素,“克里希納説,隨着大語言模型的出現,對數據的需求只增不減。
MosaicML首席技術官韓林·唐(左)與首席執行官納文·拉奧、創始顧問邁克爾·卡賓及首席科學家喬納森·弗蘭克。照片:MosaicML企業技術領導者正面臨為AI模型準備數據的壓力。數據是所有算法的基礎,因為它被用來教會算法從中提取模式並做出預測。
提供編程工具的Replit等公司已經在使用Databricks處理數據管道,並將這些信息傳輸到MosaicML以訓練代碼生成模型,Rao表示。
Databricks的技術被稱為"湖倉一體”,旨在為AI應用準備和管理業務數據,同時將數據、分析和AI編程工具統一在一個系統中。Databricks通過出租分析、AI和其他基於雲的軟件來盈利,這些軟件利用AI就緒的數據——Ghodsi稱之為"鎬和鏟子”——來構建企業技術系統。去年,Databricks報告了超過10億美元的年化收入。
根據市場分析公司PitchBook Data的數據,全球生成式AI市場的支出預計將在今年年底達到426億美元,並以32%的複合年增長率增長,到2026年達到981億美元。該公司表示,生成式AI初創企業的風險投資從2022年全年的48億美元增長到2023年前五個月的127億美元。
Databricks由加州伯克利的一羣數據科學家於十年前創立,在2021年8月完成16億美元的融資後,其私募市場估值為380億美元。其投資者包括摩根士丹利的Counterpoint Global、Andreessen Horowitz、Baillie Gifford、UC Investments和ClearBridge Investments。
```生物製藥服務公司Syneos Health的首席信息與數字官Larry Pickett表示,目前基於專業醫療數據訓練模型的成本估計在100萬至200萬美元之間。分析師指出,這類"領域專用"模型對企業而言比ChatGPT更具實用價值,因為它們包含更多行業術語和專業知識。
但Pickett預計,通過使用較小的預訓練模型,Syneos Health能大幅降低開支,“而不是基於OpenAI擁有的全部數據語料庫進行構建”。他表示,其中部分模型已可通過機器學習初創公司Hugging Face等開源庫獲取。
“並非所有應用都需要GPT-4,“Krishna在提及OpenAI的大型語言模型時表示。他指出,語言模型正針對特定應用場景進行精細化調整,“屆時模型將小到可以嵌入任何智能手機”。
聯繫Angus Loten請致信[email protected],聯繫Belle Lin請致信[email protected]
本文發表於2023年6月27日印刷版,標題為《Databricks以13億美元收購AI初創企業》