AI初創企業資金充裕,但數據不足——這是個問題 - 《華爾街日報》
Isabelle Bousquette
像ChatGPT這樣的AI工具激發了對大語言模型可能性的廣泛熱情,但獲取正確的數據至關重要。圖片來源:FLORENCE LO/REUTERS生成式AI初創企業正獲得數十億美元融資,但如果無法獲取正確數據,它們可能很快面臨失敗——而這絕非易事。
“我們看到許多公司的提案,它們可能正在追求AI的卓越應用,卻無法獲得構建強大應用所需的數據,更不用説能幫助建立商業競爭壁壘的專有數據,“風險投資公司Primary Venture Partners聯合創始人兼普通合夥人布拉德·斯夫魯加表示。
Bullpen Capital駐場首席技術官保羅·蒂瑪指出,如今擁有正確數據比以往任何時候都更關鍵。由於模型構建已趨於同質化,真正的價值在於數據本身。
據PitchBook數據,生成式AI初創企業的風險投資金從2022年的48億美元激增至2023年前五個月的127億美元。目前許多公司正試圖在金融或醫療等領域構建更垂直的AI模型——但獲取這些領域的訓練數據集並非易事。
部分AI初創企業尋求與擁有海量數據的大型企業合作。例如,安永全球税務副主席瑪娜·裏克表示,得益於其龐大的交易數據儲備,每天都有生成式AI初創公司前來接洽。但安永客户服務全球管理合夥人安迪·鮑德温坦言,對於用公司數據訓練外部模型可能帶來的後果存在顧慮。
“這些數據歸誰所有?當我們訓練模型時,我們對該模型的訪問權限是什麼?其他人又將如何使用這個模型?”鮑德温説道,“這些數據是我們帶來的知識產權的一部分。”
初創公司可以通過僅為每個客户使用其自身數據訓練不同的模型來規避知識產權問題。初創公司TermSheet正在採用這一策略開發其產品Ethan,這是一個生成式AI模型,用於回答房地產開發商、經紀人和投資者的行業問題。但首席執行官兼聯合創始人羅傑·史密斯表示,即使讓客户同意這一點也需要一些教育和説服工作。
法律科技公司Logikcull的聯合創始人兼首席執行官安迪·威爾遜表示,説服企業相信你擁有強大的網絡安全態勢並能夠真正保護這些數據也可能是一個挑戰。
Primary Venture Partners的Svrluga表示,在生成式AI應用中,大型科技公司可能比初創公司更具優勢,部分原因是它們已經獲得了大型客户的信任,這些客户對它們處理數據感到放心。
金融服務公司Truist的首席數據官特蕾西·丹尼爾斯表示,她目前只與大型科技供應商而非初創公司探討生成式AI的使用案例。她説,她可以信任大型供應商來確保數據安全。
這意味着,即使是那些能夠利用公開可用數據取得先機的初創公司,在利用企業數據集完善其模型時也會面臨挑戰。Veesual是一家可以生成人們試穿衣服效果圖像的AI初創公司,最初利用互聯網上的公開圖像進行訓練,但難以説服大型零售商同意提供數據以增強模型。
Veesual公司首席執行官兼聯合創始人馬克西姆·帕特表示,在某些情況下,大型零售商要求鉅額付款或公司股權,以換取Veesual如何從這些數據中獲利,但交易並未達成。
幫助律師事務所起草專利申請的生成式人工智能初創公司PatentPal的首席執行官兼創始人傑克·徐表示,該公司基於公開可用的專利申請文件進行訓練。他表示,通過繼續使用經過加密或匿名化的實際客户反饋來訓練該工具,有機會使其更加準確。但這很複雜,因為這些反饋必須與包括商業機密在內的高度敏感和機密數據分開。
“對於早期初創公司來説,存在品牌認知度的問題,也存在社會認可度的問題,”他説。
但與此同時,壓力也在增加。Struck Capital的創始人兼管理合夥人亞當·斯特拉克表示,一些初創公司正在競相爭奪某些細分領域內的更多數據,並且要更快地完成這一目標。
“如果你認為存在專有數據集,你會希望在他們之前獲得這些數據,然後談判獨家使用權,”他説。“從這個意義上説,這幾乎變成了一場軍備競賽。”
聯繫伊莎貝爾·布斯凱特,郵箱:[email protected]
本文發表於2023年6月16日的印刷版,標題為《人工智能初創公司資金充足但需要更多數據》。