企業急於採用生成式AI 促使數據管理成當務務——《華爾街日報》
Belle Lin
企業技術主管正面臨確保公司數據存儲、篩選和保護以供AI使用的壓力。圖片來源:I-Hwa Cheng/彭博新聞社人們對由ChatGPT開發方OpenAI等公司推出的大型語言模型興趣高漲,這使數據管理重新成為焦點,也讓企業技術主管面臨更大壓力,他們需要確保公司數據得到妥善存儲、篩選和保護,以便用於人工智能。
金融科技公司Jack Henry的首席信息官Rob Zelinka表示:“任何公司,無論屬於哪個行業,確實都需要圍繞數據管理建立良好的結構和治理。現在引入大型語言模型,這一點變得更加重要。”
加劇這種緊迫性的事實是,已經建立了強大數據基礎設施的公司可以更快地將大型語言模型用於定製化商業用途,如管理合同、提供客户服務和編寫代碼。為了在創新方面超越對手,商業技術領導者面臨更大需求,需要提供能夠幫助生成式AI應用成為現實的數據框架。
一些首席信息官已向內部數據專家和專門從事數據基礎設施建設和成本管理的外部供應商尋求幫助。數據(可能包括公司的交易記錄、分析、代碼和其他類型的專有信息)被認為是任何AI模型的支柱,因為它被用來教導這些算法從中提取模式並做出預測。
Syneos Health的首席信息與數字官Larry Pickett負責協助制定企業數據管理戰略,其核心是"管理、清理並整合全業務領域的所有數據"。這家生物製藥服務公司首先將其企業資源規劃和臨牀試驗信息等運營系統數據整合至數據湖(即數字存儲庫)中,Pickett介紹道。
Pickett表示,隨後Syneos Health花費約18個月為AI模型訓練構建數據儲備,組建了由數據科學家和業務領域專家組成的團隊來打造"特徵庫"——即可複用機器學習組件的中央存儲庫。
這家總部位於北卡羅來納州莫里斯維爾的公司還會刪除不再使用的數據,僅保留AI、儀表盤及其他應用所需的資料。“若不加以控制,雲服務成本和數據存儲費用確實會激增,“Pickett強調。
訓練大語言模型需要隨時調用海量數據,其存儲、處理和保護成本高昂。2019年成立於加州山景城、剛剛結束隱匿模式的初創公司Granica等供應商,正屬於新興企業陣營,致力於通過現成服務幫助企業利用生成式AI,或降低成本和提供網絡安全保障。
Granica開發出針對Amazon.com和谷歌雲平台存儲數據的壓縮技術,聲稱能縮減雲對象存儲的容量與成本——這類存儲承載着大量非結構化數據,無法用傳統行列格式處理。這家初創公司週四宣佈已從風險投資公司NEA和貝恩資本創投募得4500萬美元。
為確保AI訓練數據安全,電子郵件、日曆和聯繫人API提供商Nylas正在測試Granica的Screen服務,該服務能在壓縮數據過程中清除敏感公司數據及個人身份信息。
Nylas工程副總裁John Jung表示,這對生成式AI工具非常有用——這類工具可被訓練成模仿特定用户撰寫郵件。“需要擦除[個人身份信息],避免模型可能產生幻覺並泄露敏感信息”,他解釋道,這裏指的是生成式AI程序輸出虛假結果的情況。
分析師還預測將有更多初創企業專注於幫助企業篩選數據並控制生成式AI的數據訪問權限。
對部分CIO而言,數據質量與成本控制同等重要——即確保數據格式規範、組織有序且與AI模型訓練相關。“關鍵不僅在於收集數據,更要清洗、分類數據並確保其格式可用,“Zelinka表示,“否則你只是在付費存儲無意義數據。”
Zelinka稱Jack Henry目前正聚焦數據治理,他與首席風險官共同制定數據訪問權限與使用規範,並與首席技術官合作研究如何將生成式AI嵌入公司產品及平台。
IT研究與諮詢公司Gartner傑出副總裁分析師Erick Brethenoux指出,多數企業關注大語言模型所用數據的"質量、上下文和隱私”。他表示這些問題長期存在,但生成式AI的熱潮使其加速凸顯。
Syneos Health目前正準備發佈其稱為“協議天才”的工具,這是一款基於OpenAI大型語言模型和ChatGPT構建的聊天機器人,能夠搜索40萬份臨牀試驗方案,皮克特表示。商業需求推動了這種創新速度,他稱,“因為我們確信其他公司也會這麼做。”
聯繫貝爾·林,郵箱:[email protected]