建造知識庫:邁出搭建TO B大模型的第一步_風聞
产业家-产业互联网第一媒体1小时前

人工智能浪潮中,知識庫已然不僅是數據的簡單集合,它已成為企業智能化轉型的核心競爭力。
作者|鬥鬥
編輯|皮爺
出品|產業家
一個大模型的知識庫怎麼建?
**“從去年下半年開始,我們就開始搭建自己的大模型,基於LLAMA的架構。”**一位國內製造業企業的CIO告訴產業家,“第一步就是搭建知識庫。”
這家誕生於20世紀80年代的製造業企業,擁有近40年的精密製造經驗。在過去的幾十年裏,該企業跨過信息化、互聯網化,來到數字化、智能化時代。
為了更好地提升工作效率、支持技術發展、推動企業文化和組織結構的變革,在去年下半年,公司啓動了基於“開源算法的AI系統”的新項目。
項目被迅速推進。
首先,幾個知識庫的方向被迅速敲定,其中包括生產環節,辦公環節以及協作環節。其次,由公司組織,通過部門會議和討論,收集員工在日常工作中經常遇到的高頻問題;
此外,選擇一些對新知識敏感、願意接受新技術的員工,組成學習小組,進行初步的AI和知識庫使用培訓,並要求學習小組成員提出一定數量的問題,對這些問題進行分類;將收集到的問題和答案用於訓練AI模型,以提高其回答問題的準確性。最終,將其部署在自己的服務器上。

這恰是一個完整的知識庫搭建流程。
從更大的視角來看,在To B企業服務市場的浪潮中,如今大模型的落地應用正成為企業航船的強勁引擎。而知識庫,作為這引擎的燃料,也正受到前所未有的關注。它不僅是輔助工具如Copilot和智能代理Agent的堅實後盾,更是全場景企業級大模型部署的核心力量。
在過去的一年時間裏,不同的服務商,包括基座大模型廠商、軟件服務商、雲服務商、行業解決方案提供商以及第三方大模型開發平台,都在幫助企業構建知識庫方面發揮着各自的作用。
比如,基座大模型廠商的做法是通過提供一站式企業級大模型平台,使得企業能夠享受到從數據處理到模型訓練、部署和運維的全流程服務;軟件服務商的模式則是更傾向於提供垂直的解決方案,他們結合特定行業知識,幫助企業構建符合行業特性的知識庫。
那麼在當下的大模型時代,知識庫到底發揮什麼作用,它和大模型的關係到底是怎樣的?以及知識庫在大模型訓練過程中到底發揮怎樣的作用?
一、大模型時代,重新理解知識庫
首先,一個精準的定義是,TO B企業的知識庫,更可以看作是一個專業性極強的信息資源庫,它與個人知識庫相比,具有明顯的系統性、規模性和保密性特點。
從構成內容來看,企業知識庫通常包含大量專業性強、與企業運營緊密相關的數據,這些數據不僅包括文本信息,還可能涵蓋圖片、視頻、音頻和數據表格等多模態格式。這樣的設計使得企業知識庫能夠支持企業的決策制定、流程優化和客户服務等多個方面。
其特殊性在於,企業知識庫中的數據具有特定的業務含義,如客户信息、交易記錄和庫存狀態等,這些對於企業的日常運營和長期戰略規劃都至關重要。
此外,企業知識庫的數據還與內部流程和規則緊密相連,如生產流程和財務規則等,這要求企業知識庫必須具備高度的集成性,以便與企業的其他系統如ERP和CRM等實現無縫集成。
這些從語料到連接到流程的特殊性,對應的也更是在大模型的落地過程中,企業知識庫扮演着至關重要的角色。
具體來看,首先在訓練初始環節,知識庫的角色是為大模型提供豐富的訓練數據,確保模型能夠精準匹配企業的具體業務需求和場景。通過持續的反饋循環,知識庫幫助模型不斷自我優化,提升性能。
以市面上如今流行的RAG技術為例,大模型能夠檢索知識庫中的相關信息,生成準確的回答或解決方案,並將這些輸出反饋回知識庫中,形成一個持續學習和改進的閉環,從而顯著提升解決問題的效率和準確性。
例如Google的DeepMind Health項目通過整合多模態數據,提高了疾病診斷的準確性,在識別視網膜病變方面提高了診斷準確率;Salesforce的數據顯示,通過知識庫微調的AI模型在銷售預測方面的準確率提高了約30%。
甚至可以説,企業知識庫的建設和應用直接影響大模型在企業內部的使用效果。它不僅提高了模型的效率和準確性,還增強了用户對模型輸出的信任和滿意度。同時,企業還可以通過知識庫來控制數據的訪問和使用,確保數據安全和合規性。
根據IBM的年度報告,其知識庫幫助減少了約20%的內部查詢響應時間,同時提高了數據安全性;根據亞馬遜的業務報告,通過知識庫的應用,庫存週轉率提高了約15%,客户滿意度提升了10%。
最後,更可以看做,隨着企業對數字化轉型的需求日益增長,企業知識庫與大模型的結合也更將成為企業獲取競爭優勢的重要工具。
在德勤的一項分析中,那些有效利用知識庫的企業,其年增長率平均比行業平均水平高出15%。
可以説,知識庫的最核心價值呈現恰是其在為模型提供了微調數據之外,還確保模型能夠真正適應企業的特定需求,提高其在企業內部的有效性。
二、誰在構建知識庫?
儘管市場上眾多企業提供了基於大型模型的知識庫服務,但構建這樣的系統並非輕而易舉的任務。
例如,根據《企業知識管理調查報告》顯示,超過60%的企業在嘗試集成AI助手時遇到了技術障礙。
正如文章開頭所述的案例,企業在搭建知識庫的過程中,需要將AI助手與現有的多種軟件和系統進行集成。這要求企業擁有大量且細緻的數據集來訓練AI模型,這在企業初期是一個巨大的挑戰——確保AI助手提供的答案准確無誤,尤其是在製造業這樣對錯誤容忍度極低的行業中。福特汽車公司在集成AI系統時,就曾面臨數據精確度不足的問題,導致初期模型的準確率僅為70%。

在數據層面,企業需要選擇不同的數據處理工具,如Apache Spark、Hadoop,標註軟件如LabelImg,內容管理系統(CMS)如WordPress、Drupal,以及企業搜索解決方案如Elasticsearch、Apache Solr,都是構建知識庫的利器。
據Gartner的報告指出,市場上排名前五的數據處理工具在數據清洗效率上的差異可達到30%以上。
此外,知識庫的用户界面設計對員工的使用體驗和效率有着直接影響;同時,工具與企業現有系統和工作流程的集成性也是至關重要的。IBM的Watson平台在與企業系統集成時,就提供了超過200種預集成選項,顯著提高了集成效率。
面對這些挑戰,一些基礎模型供應商和軟件服務提供商正在幫助企業構建知識庫。比如百度的“崑崙芯+飛槳平台+文心大模型”佈局,以及華為的“昇騰芯片+MindSpore框架+盤古大模型”等,都是從更系統的層面保障企業大模型部署的成功。
此外,像滴普科技這樣的軟件廠商,也不斷提供垂直的解決方案,其客户滿意度調查顯示,使用滴普科技基於數據庫等數據細顆粒度的解決方案的企業,其知識庫構建成功率可以提高40%。
然而,工具本身並非萬能。企業要成功搭建自己的知識庫,還需要克服內部組織結構、業務流程和員工接受度等難點。高層的支持和明確的戰略規劃對於項目的成功至關重要。根據麥肯錫的一項研究,有高層支持的企業知識庫項目成功率比沒有支持的高出50%。
在搭建知識庫的過程中,IT部門或知識管理部門通常是牽頭者,負責架構設計和技術選型。而業務部門則需要提供內容支持,確保知識庫的信息準確、及時。
例如,產品開發部門提供最新的產品信息,客户服務部門貢獻常見問題解答,人力資源部門提供員工培訓材料。這就像一場交響樂,每個部門都是不可或缺的樂手,共同奏出和諧的樂章。一項針對500家企業的調查發現,那些擁有健全知識庫的企業,其產品開發週期平均縮短了20%。
此外,企業還應該培養員工的知識共享文化,鼓勵他們將經驗和教訓貢獻給知識庫,形成持續的知識積累和更新。根據哈佛商業評論的研究,擁有強大知識共享文化的公司,其創新速度比行業平均水平快30%。
總之,企業知識庫的建設是一項系統化的工程,它要求企業從戰略層面進行規劃,技術層面進行實施,文化層面進行推動。只有當知識庫真正是以企業知識寶庫的形式存在,才能真正從大模型的價值層面進行賦能加持。
三、知識庫背後:大模型的落地成色
再回到文章最開始那個問題:知識庫於大模型而言,意味着什麼?
首先,**從表層來看,知識庫為模型提供了訓練所需的海量數據和信息資源。**谷歌的BERT模型之所以在語言理解任務上取得顯著進展,是因為它訓練時使用了包含超過3000本未版權書籍和2400萬網頁的龐大知識庫。這樣的數據豐富性確保了模型能夠學習到廣泛的語言模式和知識。

知識庫中的信息多樣性也是大模型落地的關鍵。IBM的Watson在醫療領域應用時,依賴於包含超過200萬頁醫學文獻、圖像和病例報告的多模態知識庫,這使得Watson能夠處理複雜的醫療諮詢和診斷任務。
此外,從模型的特定性來看,知識庫中的信息準確性對於大模型的決策支持至關重要。例如,金融機構在使用大模型進行風險評估時,依賴於準確無誤的金融數據知識庫,這些數據往往來源於經過嚴格審核的金融報告和市場分析。
知識庫,正在成為大模型落地的基礎。
**目前做得好的知識庫不僅僅是靜態的信息集合,而是動態、互動的平台。**它不僅僅是信息的存儲和分類,更是知識發現和創新的催化劑。當前做得好的知識庫,已經超越了傳統的文檔管理和搜索功能,它們通過集成先進的搜索算法、自然語言處理技術,甚至將機器學習模型(如prompt)嵌入其中,實現了知識的自動更新和智能化推薦。
例如,亞馬遜的A3知識庫存儲了超過5億個產品信息,並通過機器學習算法不斷優化產品推薦,提高了用户體驗和銷售效率。這些知識庫通常具備高度集成、用户友好、智能化、個性化和持續學習的特點。
**未來,知識庫的搭建方式將更加智能化和自動化。**例如,自動內容聚合工具如Import.io能夠從互聯網上自動收集和整理信息,而機器學習平台如Google’s TensorFlow則能夠處理和分析這些數據。知識庫的作用將不僅限於提供數據支持,它將成為企業決策的智能助手,通過分析大量數據提供洞察和建議。
在大模型落地中,知識庫的更新和進化模式將變得更加動態。例如,OpenAI的模型能夠根據用户的反饋和行為自動調整其生成的文本,以適應不斷變化的需求和環境。這種自我優化的能力將使知識庫成為大模型持續進化的重要驅動力。
隨着技術的進步,知識庫將變得更加智能、互動和自適應,為企業提供更加強大和靈活的知識管理能力。據Gartner預測,到2025年,超過30%的大型企業將擁有自己定製的人工智能知識庫,這將極大地推動企業智能化的發展。
在人工智能的浪潮中,知識庫已然不僅是數據的簡單集合,它已成為企業智能化轉型的核心競爭力。