“橙篇”背後的百度文庫,如何做好“AI 原生化”?_風聞
极客公园-极客公园官方账号-27分钟前

百度大模型的「先鋒」,是怎麼做產品的?
對話 | 張鵬
編輯 | 連冉、靖宇
累計 AI 用户數已經突破 1.4 億,使用次數突破 15 億——AI 重構之下,百度文庫煥發了全新活力。在「AI 產品榜」的 5 月份榜單中,百度文庫 AI 功能更是以單月 6536 萬訪問量位列國內總榜首位,甩開第二名將近 1500 萬的身位。
成立十餘年的百度文庫,是如何在 AI 時代迸發出強大的吸引力的?
當 AI 作為一項創新的底層技術被整合進產品系統中,如何理解百度文庫的演進軌跡,及其在產品使用和目標上的轉變?作為行業最火的 AI 原生應用之一,它是如何實現進化的?
近日,在與極客公園創始人、總裁張鵬的對談中,百度副總裁、文庫事業部負責人王穎給出瞭解答。
去年 8 月至今,百度文庫經過大模型的重構,已經實現了從內容理解、規劃到生成的全流程智能化。目前,百度文庫背後的團隊僅有兩百餘人,而在交付上實現正反饋之外,他們甚至還做到了商業上的正循環**。**
在 5 月底,百度文庫推出了新產品「橙篇」,是行業首個集「專業知識檢索和問答、超長圖文理解和生成、深度編輯和整理、跨模態自由創作」的**「查閲創編」一站式AI自由創作平台**,未來,文庫和橙篇也會建立自己的內容分發體系。
在這一波大模型的浪潮中,百度文庫的轉型既藉助了技術的躍進,也是對用户需求深刻理解的體現。如今,百度文庫已進入與過去截然不同的發展階段,產品正在並將繼續經歷一系列變革,而這些變革或許將徹底改變人們對文庫的常規認知和使用習慣。
**「理想的AI,應該端到端解決問題,讓機器像人一樣思考,讓產品像人一樣工作。」**AI 重構後的百度文庫,已經做到了這一點。去年的極客公園創新大會 2024 上,百度創始人、董事長兼首席執行官李彥宏曾強調過,AI 的真正價值在於原生應用的開發,而橙篇作為新近推出的 AI Native 產品,正在為用户創作展開更廣闊的可能。
從將所有旗下應用全部用大模型進行重塑,到文庫成為跑在最前面的那個隊伍,可以看得到,百度做 AI 的決心並非紙上談兵,而是正在不斷突破創新應用場景,用 AI 深度重構產品,為用户持續提供屬於這個大模型時代的智能增益。
在對談中,百度副總裁、文庫事業部負責人王穎輸出了一些精彩觀點:
「文庫會是一站式AI內容獲取和創作平台,創作從文庫開始就好了。」
「目標對不齊,來自於標準對不齊。」
「一開始做產品,心裏就有一張損益表。」

01
AI 重塑下的百度文庫
張鵬:文庫在引入智能技術初期的決策過程是怎麼樣的?是如何設定第一個目標並逐步發展的?
王穎: 我們首先考慮了兩個關鍵點。第一,我們引入了大模型技術,評估它在哪些領域有顯著的能力提升,以及還有什麼缺陷,AI 技術自 20 世紀 50 年代以來一直在發展,但大模型的出現標誌着創作的能力飛躍,這個技術飛躍是不是能解決目前用户的問題。
第二,我們深入挖掘了用户在文庫的需求。傳統上,人們認為文庫只是一個文檔檢索平台,但通過深入分析,我們發現用户找內容不僅僅是為了閲讀,而是為了寫作。我們進一步探究了用户為何尋找內容,以及找到內容後他們要做什麼。我們意識到,用户的核心目的不是為了找內容本身,而是為了支持他們的寫作需求。
寫作有兩條路徑,第一條路徑,擅長寫的用户上手打開編輯器就寫了,還有一種不會寫的用户,他們第一步需要找素材。
50% 的用户屬於第二類,他們需要找素材並進行組合和編輯。即使是擅長寫作的用户,在寫作過程中也常常需要尋找專業素材和靈感。這些都是文庫用户的需求,也顯示出找和寫的需求實際上是一個統一的需求,只是由於過去的技術水平限制,這個過程不得不被分割在不同的工具和平台上進行。
張鵬:所以在技術進步的推動下,文庫有機會更深入地滿足用户需求了。
**王穎:**我們一開始就知道用户有一個完整的需求,但原來的技術和產品限制只能解決其中的一部分,只能提高一部分效率。其實,人工智能的本質是讓機器像人一樣思考。
做人工智能產品,就要讓產品像人一樣工作,幫用户完成所有工作。我們最初的重構思路是:既然有了這種技術,我們要讓產品像人一樣工作,端到端地解決問題,而不是隻解決一個環節的問題。
很多人認為文庫是用來搜資料的,質疑我們為什麼要用大模型。可以回想一下去年 3 月份,很多平台是這麼做的:用户搜索不到內容時,他們用大模型生成一篇給用户。可是這種做法並沒有解決用户的本質需求。就像我們買米是為了做飯吃飽,而不是為了單純擁有米。
我們最開始的目標是讓產品像人一樣思考,端到端地解決問題,在實現這個目標的過程中,確實遇到過很多問題。
用户對文庫的認知是一個資料庫,用來存儲和查找資料,這個認知非常強烈。
我們要做的第一件事是讓用户過來查找資料,並讓用户繼續留在這裏,讓他們知道文庫也能幫助寫作。
所以,我們在理解到用户在查找資料後可能需要編輯和創作時,就提供相應的能力,當技術進一步成熟時,我們就直接搭建新功能支持寫作,比如後續文庫就推出了各種格式的寫作功能,到現在文庫又推出的全新 App——橙篇,用户不僅可以查找資料,還可以直接進行寫作。
張鵬:在找到文檔和內容後,用户還需要對它們進行進一步加工、轉化和存儲,使其未來可以結構化使用。所以第一步是將這個過程延長,而不是直接到寫作階段,這些工作是什麼時候進行的?
**王穎:**用户進入文庫後,我們不僅提供文檔搜索能力,還提供寫作相關的能力。當你找到一篇文檔後,可以進行擴寫、改寫,甚至基於文檔內容製作 PPT。
這些工作是在去年 5 月份之前進行的。當時我們還沒有編輯器,因此只能先做這些基礎工作。然後我們一邊開發編輯器,一邊進行 AI 滲透,讓用户知道文庫有 AI 功能,AI 對寫作有幫助,這是一個並行的過程。編輯器做完以後,我們直接推出了完整寫作功能,用户就可以直接進入寫作階段。
張鵬:文庫有畫本的功能,這個功能用户的反饋怎麼樣?
**王穎:**畫本功能分享率很高,有 30%。這個功能成本有點高,不過推出一個半月我們已經把成本下降了一個量級,到今年年底成本應該都算不上負擔了。
現在文庫所有的 AI 功能沒有優化到位就不推,現在是因為到位了,所以就開始推了,轉化率也特別好。
張鵬:所以文庫不光交付實現了正反饋,商業上也做到了正循環。
**王穎:**我們從一開始做項目,就是從一張損益表開始的。
02
「模型接入」的挑戰
張鵬:那麼後來真正把模型接入,是很簡單的事嗎?還是説需要和模型團隊磨合很久?
王穎: 我們沒有覺得很簡單。大家對使用模型的理解不同。以前的模型是解決專用問題,現在的通用模型解決很多問題。
通用模型有它的限制,所以我們用 MoE 來解決問題。首先,通用模型能力有限,我也不能全都用大模型,那樣成本太高,現在 AI 應用賠錢就是因為成本問題。
我們把大模型看作大腦,它負責理解和分工,複雜的問題用大模型解決,其他的功能用不同的模型來做。
事實上,文庫做到今天,我們有對模型進行精調,但並沒有用想象的那麼多的精調數據,因為要求的不是數據數量,而是數據質量夠不夠好,夠不夠均衡。並且,文庫有自己的算法工程來做 Prompt(提示詞)優化,包括使用不同尺寸的模型來執行不同的任務,最終將它們整合起來,形成一個協調一致的系統。
文庫從第一天開始,就讓產品像人一樣思考,像人一樣工作。這種思考和分工是持續進行的,我們從來沒有在大模型上糾結過。
到目前為止,我們和大模型團隊一起真正合作開發的定製能力只有兩個:
**一個是字數控制,**大模型的多樣性決定了依從性問題的存在:模型團隊一開始不能完全理解這個需求,因為在搜索場景中,字數長短內容無所謂,但對文庫用户來説不一樣,如果用户要求寫 500 字,它卻寫了 1500 字,就給用户增加了刪減的負擔。現在,文心一言在字數依從性上可以做到上下浮動 5%。
**另一個是理解和生成:**我們提供很多文檔解析能力,以及專業文檔的標準和專家標準,然後模型去訓練這些內容。這兩件事是我們與模型團隊真正共建的。
03
**AI 重構,**核心在於「價值」
張鵬:你要求產品團隊首先對於模型有根本性的理解,且對自己如何運用模型,一上來就要清晰的認識。
王穎: 對,現在的組織結構中,產品和策略是要融合的。過去的工作流程裏,是算法團隊來負責策略算法,產品負責提需求,產品團隊提供產品原型可以了。現在這種模式行不通了,每個人都要滲透到對方的領域。原來是陣地型打法,現在得全攻全守往前推進。
張鵬:是什麼讓你下定決心必須這樣?
**王穎:**標準不一致就會導致目標不一致。另外,交付不等於用户滿意。成熟的業務有明確的標準。但對於全新重構的項目而言,如果沒有建立明確的標準,光是以物理上線為目標,而不是以用户的實際滿意度為目標,是行不通的。
張鵬:上一個時代的產品經理需要懂人性,但今天光懂人性不夠,還需要懂模型。
王穎: 對,因為我們建立的是人和機器溝通的橋樑。
**張鵬:**你是怎麼管理產品需求、定義和實現效果的?
王穎: 我會把各方面都搞得清晰。從最開始的需求判斷是不是應該這麼做,產品怎麼定義,哪些是突出的賣點,應該實現什麼樣的效果。也畫產品圖,包括交互設計和一些 UI 設計,會帶着團隊一起來做。不同的生成路徑也會關注,比如做 PPT 的生成路徑和做漫畫的生成路徑是不一樣的。但是在同一個產品中又不能讓用户在生成不同內容或不同品類時,都感覺像在使用一個不同的東西一樣。這些流程需要重新設計。
張鵬:做完第一步,把第一個延長線畫了,看到什麼樣的數據變化?
**王穎:**用户使用時長有變化了,翻倍了。
張鵬:上線多長時間看到的?
**王穎:**大概是一個月。不光使用時長翻倍了,留存也提升了。
張鵬:怎麼從時長的翻倍,去解讀用户的收穫?
**王穎:**看結果。以前的用户基本上是找到就下載,時間很短。現在會發現用户有了更多的互動,會調用各種功能,自然時間就變長了。
還有一個關鍵指標是下載完成後本地使用。畢竟下載可用了,才會下載。
張鵬:下載下來意味着有效交付完成了。
王穎:對,要麼下載,要麼分享轉發。還要關注留存和活躍留存率,也就是用了某項功能的用户,第二天再次使用的比例是否超過以往。只有用户覺得功能有用,才會再次回來使用。就像去飯館吃飯一樣,如果今天不好吃,明天還會再來的人肯定不多。
張鵬:做到這一步有沒有很複雜的技術挑戰?
**王穎:有很多,舉個例子,在初期的文檔寫作中,除了大家熟知的幻覺問題,**還有字數依從方面。其實很多時候擴寫 1.5 倍就夠了,但之前有一些大模型的擴寫長度趕上重寫一篇了,這就不太好。文庫推動解決的就是這一點。
張鵬:怎麼去定義字數依從性的合理指標?擴寫要做好是怎麼做到的?
**王穎:**我們做了大量調研去了解用户對擴寫的期待是什麼樣的。用大模型重構產品的時候,很多人不知道標準怎麼建立,但其實標準不是存在於行業,而是藏在用户心裏。
用户對新事物總是有所期待,我們得去滿足這些期待,高太多,用户可能不理解,低於期待值更不行。找到用户的期待值,比它高一格就是標準。
產品剛上線的時候,我們邀請測試、維護了四個用户羣,每個羣裏有兩百人,版本出來就給這些羣裏的用户使用,他們會給到一些反饋。
張鵬:所以擴寫也是在這一波前期測試過程當中,用户提出問題,然後你們反過來進行調研,到底應該怎麼擴寫。
**王穎:**對,因為 Prompt 解決不了這個問題。有些大模型問題是 Prompt 無法解決的。大模型的特性就是多樣性,而多樣性會導致依從性差,這是必須要解決的問題。現在一般的擴寫比例是 1.5~2。
張鵬:所以這是一個擴寫的黃金比例。在做這個的同時你們還在搭編輯器,這個事情複雜嗎?
**王穎:**很複雜。複雜之處在於幾個方面。
首先,不同的文件類型需要不同的編輯器,比如 Word、PPT、Excel 需要的編輯器都不一樣。這導致用户在處理文件時需要頻繁地切換。
其次,進入編輯器之前,文件可能存在多種格式,增加了處理的複雜性。
最後,編輯器本身的工具非常繁多,使用指令複雜,每個編輯器可能有數百個指令,如果每個都要實現,工作量非常巨大。
此外,這是一個強工程項目,像 Word 或 Office 這樣的產品本身也是編輯器,我們做編輯器不是要跟它們做一樣的產品,我們要做的是融合編輯器,這個編輯器要兼容所有的文件格式,用户不需要關心格式問題,只需要告訴我們需要完成什麼任務即可。
百度原來沒有這方面對應的積累,我們是從頭開始做的。
張鵬:上線之後用户的反應怎麼樣?
**王穎:**擴寫和續寫對編輯器的要求並不高。真正對編輯器要求高的是 PPT。PPT 功能推出之前,擴寫僅限於文本,我們對編輯器的理解和難度的把握都相對有限。
PPT 功能的出現,使得操作空間擴展了。首先,PPT 本身的製作難度就比文本要大;其次,現在能夠在同一個平台上進行格式轉換,融合編輯器的優勢也就體現出來了。如果只限於 Word,能做的就只是文字處理,但有了融合編輯器,不僅可以處理 PPT,還能實現 PPT 與 Word 之間的格式轉換,甚至還能製作圖表。
張鵬:PPT 能力上線之後,用户能明顯感覺到文庫編輯器的意義所在了。接下來用户數據變化怎麼樣?
**王穎:**非常明顯。各種用户數據曲線陡峭上升。去年 9 月到 10 月,DAU 從 30 萬爬升到 140 萬。
張鵬:所以文庫接下來會是什麼樣的產品定義?
王穎:一站式 AI 內容獲取和創作平台,所有創作從文庫這裏開始就好了。
張鵬:分發怎麼做,有一鍵轉發功能嗎?
**王穎:**有。用户不需要考慮素材的來源、格式或者具體細節,他們只需將內容提供給文庫,輸出支持包括存儲、轉發、分享等。
張鵬:這樣聽下來,文庫像是個人寫作的操作系統。
**王穎:**對,除此之外,還希望文庫有自己的生態,可以分發內容。
張鵬:Robin 説文庫是被 AI 重構最好的產品,你有沒有聽他定義過他認為的好是在於什麼?
**王穎:**核心就是價值,為用户、行業帶來什麼價值,有沒有價值重構,提供價值增量。
給用户提供了價值,用户就會用腳投票,同時價值會反哺大模型,利用人類行為反饋提升自身性能。
04
橙篇——********「長文創作、批量賦能」
張鵬:文庫最近推出了橙篇這個產品,對它的定位是什麼?
王穎:我們希望橙篇能夠成就人生新篇章。除了專業寫作以外,橙篇未來還將注重休閒娛樂性質的寫作,以及分享互動的功能。

張鵬:文庫這樣的平台本身也支持創作,橙篇的推出是出於什麼考慮?
**王穎:**用户在創作過程中存在兩種情況:一半的用户因為不知道如何着手開始,需要找資料參考,另一半則能夠直接開始寫作。儘管文庫已經積累了 15 年的經驗,擁有廣大用户,但大多數人仍然將其視為一個資料搜索平台,而非創作起點。
在短期內,文庫是一個內容獲取和創作的一站式平台的認知還需要逐步建立,但我們需要一個平台來儘快滿足用户直接創作的需要,這就是橙篇的定位。
我們希望通過橙篇從創作的最初階段就為用户提供支持,同時通過專業知識內容的輔助來提升創作質量、拓寬創作服務範圍。
張鵬:可以有一小股部隊像創業公司做新鋭產品一樣,更有活力。
**王穎:**對,沒有包袱,可以做很多嘗試。
張鵬:用户有給到一些什麼反饋,對後續做產品有指導作用的?
**王穎:**呼喚趕緊出一個 App,需要更多的體裁和品類,希望有更多表格處理能力。
張鵬:用户在橙篇寫作的話,主要寫些什麼類型?
**王穎:**長文很多,大多在 5000 字以上。
張鵬:寫作通用性還可以。
**王穎:**對,我們也強調專業性。我們一直有在長文和專業內容上發力,為什麼要這樣做?因為大學生用户是傳播力最強的用户羣體,所以我們首先要滿足他們的需求,在長文理解和寫作方面,進行了專門的調整。
此外,為了應對大模型不夠專業的問題,從去年 7 月份開始,我們就開始建設專業內容,大量引入專業資源,全覆蓋 Nature 這樣的頭部期刊以及大量專業數據和出版社資源,這些其他大模型尚未涉足。這些工作是在去年 5、6 月份開始的。畢竟大模型有幻覺,有專業性不夠的問題,所以比較早就開始準備這些。
張鵬:所以你們是希望寫作這件事情,更多人當成更日常的東西,怎麼做到這一點呢?
**王穎:**對,本質就是兩件事,要麼因此獲得尊重,要麼因此掙到錢。那我們就做好兩件事,一個是分享,一個是激勵。
我們現在和很多 IP 合作,用户可以自由創作並分享作品。通過分享,讓更多人看到成果,滿足了分享展示的需求。畫本功能就是出於這個原因開發的。
激勵方面,用户創作小説後,我們會通過多個內容分發平台進行分發,產生的收入會與創作者分成,這樣用户就有了動力。
畫本也一樣,只要用户的創作在平台產生的利潤,都會分給用户。即使用户沒有直接在平台創作或分享內容,只要他們有所貢獻,也會有代幣獎勵,這些代幣可以用於完成任務,比如製作 ppt。如果代幣不足,用户可以通過繼續創作或購買來獲取更多代幣。這是我們在做的一些嘗試。
張鵬:以小説為例,現在是供給不足、需求不足還是連接不足?
**王穎:現在是供給不足,而不是需求不足。**首先,小説用户佔了整個中國用户的 50%,這個比例遠遠超出想象。我們原本認為小説用户是十八九歲到三十幾歲的年輕人,但實際上,小説用户的年齡範圍非常廣泛,從十幾歲到六七十歲都有。
需求已經非常明顯,但供給卻跟不上。供給可以分成幾個層次,頭部作家一直被催更,顯然是供給出現了問題。比如,烽火戲諸侯一章要寫十萬字,創作時間很長,一直被催更。爽文、腦洞文也同樣如此。
優質供給不足,不是説書放在那兒沒人看,而是能讓大家持續看下去的好書不多。我們發現,老白文人均閲讀本書是 1.3 本,而腦洞文是 3 本多,讀者閲讀速度很快,而供給足夠的話,讀者還會繼續閲讀下去。問題在於,好的供給還是不夠,這是非常明顯的問題。
張鵬:所以可以理解為橙篇的目標是通過這個操作系統,幫助更多有效的供給批量產生。
王穎:對,有效的供給可以分為幾類,每種都有其標準。首先是情節感人、文字優美、文筆也不錯的優質供給;其次是雖然有好的情節但很多人卡在表達環節,這個問題大模型可以解決。
小説後續可以衍生到漫畫領域,漫畫供給問題尤為突出。我們和創作者合作進行了實驗,有家公司嘗試對兩到三部漫畫實施日更策略,以此來測試是否能夠吸引更多的關注。結果顯示,儘管付費率保持不變,但閲讀量確實有所增加。
張鵬:有效供給最後很有可能也變成多模態。
**王穎:**我們本身也具備多模態能力,現在沒上橙篇是因為人力不夠,還沒來得及開發出來,之後會上線的。
05
文庫和橙篇的未來
張鵬:百度文庫和橙篇是怎麼通過用户行為數據實現數據飛輪效應的?
**王穎:**比如説在文檔平台上,我們會根據文檔的下載次數來篩選出比較優質的文檔,然後讓大模型重點學習這些文檔。
PPT 工具中也是類似,系統會自動提供已經整理過的圖片,並生成提示,用户可以根據這些數據進行修改。
漫畫的話,通常會同時生成兩張圖片供用户選擇,成本比較高,但效果並不是太好,因為有時候用户對哪張都不太滿意。
張鵬:這種情況可以做局部修改?
**王穎:**漫畫功能支持局部修改。
張鵬:這樣就解決了一致性的問題。
**王穎:**一個是一致性問題的解決,另一個是滿意度的提高。例如用户只對圖像的臉部滿意,而對身體部分不滿意,那麼評分可能只有 60 分;而如果整體都滿意了,評分可能會達到 80 分。
張鵬:這種方式在交付、交互和數據循環上都是有效的。
**王穎:**對,我們會在模型上進行局部控制。比如,我們將分享和轉發按鈕放在顯眼位置,方便用户操作後進行分享和轉發。這樣的設計不僅能夠提升用户體驗,也能更有效地引導用户參與,為後續進一步優化提供參考。
張鵬:橙篇算是文庫下面一個「特種部隊」?
**王穎:**它跟文庫是平行的兩個產品,但是底座的基座能力、基座算法、編輯器都是一套,不同主要在於前端的交互方式,除此之外,就是不同的產品團隊在與模型對接。
張鵬:橙篇與文庫為用户提供了兩種典型的創作方式:一種是原生創作加資料參考,另一種是資料參考加創作,最終的目標都是打造創作的操作系統,兩者的價值在於解鎖更多高質量的內容供給,從而激發需求,並通過內容分發建立連接,最終形成完整的閉環。
**王穎:**對,先從激發需求開始。
張鵬:過去發現,互聯網領域裏只要能夠指數級提升創作者的數量,就有機會誕生新的分發平台。你們相信現在又有這樣的機會了。
**王穎:**文庫的目標是平衡消費者和創作者之間的關係。過去,消費者遠遠多於創作者,因為很多人覺得創作是一件很難的事。
文庫的核心是讓每個消費者都能成為創作者,通過進一步降低創作門檻,擴大創作者羣體,促進更多內容的湧現,從而吸引更多人來消費。
張鵬:文庫怎麼定義 24 年的目標?這裏面的優先級是什麼樣的?
**王穎:**最重要的是有多少用户使用,也就是 DAU 或者 MAU。這可能不是唯一的標準,但是是很客觀的標準。用户願意使用甚至持續使用某個產品,説明這個產品真的給他們帶去了價值。對於文庫這種依賴用户主動參與的線上業務,這是很重要的。
張鵬:未來文庫裏的交互會出現根本性的變化嗎?
**王穎:**會。現在有一個改版在醖釀了,後面還會有一個版本。
張鵬:交互變化的思路原則是什麼?
王穎:更傾向於自然交互。7 月底,橙篇 APP 出來之後,應該會跟完全大家想的不一樣。
*頭圖來源:百度文庫
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO