自由操作的AI畫布、超真實的AI生圖:誰在顛覆內容行業?_風聞
连线Insight-1小时前

文/紀德
編輯/子夜
AI與內容工具結合,早已不是新鮮事。
從漫畫、海報製作到影視等應用領域,一系列AI產品崛起。大模型對於創作模式和生產方式的顛覆不斷髮生,作家、自媒體人、電影人等多類型創作者,對此深有體會。
**但當下AI產業仍缺乏一個足以激發需求的超級應用。**為了讓技術落地,玩家不斷尋找着理想的落地場景,以百度、Open AI為代表的企業,開始將AI大模型應用到一個可以自由操作的自由畫布中。
在百度世界2024大會上,該產品被命名為“自由畫布”,首次正式亮相。介紹時,李彥宏特別強調,“**因為自由畫布,每個人都可以成為漫畫家、短視頻導演。**這不是期貨,而是立即可用的現貨,是真正服務於創造的新質生產力!”

與其他大模型的發展理念不同,百度用AI重塑自身業務時,採用了互相支撐、融合的開發模式,自由畫布便是文庫和網盤兩大業務聯合推出的產品。
從用户體驗角度,自由畫布重塑了內容創作的底層邏輯。AI生成對文字、圖片、音視頻內容的影響,往往體現在內容製作中一個個小的環節中,但自由畫布不僅容納了所有可以提升效率、激發創意的生產環節,還顛覆了內容創作的線性邏輯,讓內容的輸入、編輯和修改都變得更自由。
發佈會上,李彥宏還提及了AI生圖的幻覺問題。近年來,AI創作產品的內容生成質量有限,成為內容創作者及行業面臨的痛點。
李彥宏認為,“過去這24個月,AI行業的最大變化是大模型基本消除了幻覺。”其中,百度在今年初自研了檢索增強的文生圖技術iRAG,能夠為用户提供真實、準確性高、無模型幻覺的生成圖片。
無論是推出自由畫布,還是自研iRAG技術,百度代表的是數億用户的高頻使用需求,但更值得關注的問題是:玩家使勁搞創新,廣大消費者又是否願意為之買單。
1、一張自由操作的AI畫布,能否滿足數億創作者的所有想象?
近年來,一種全新、直觀、可視的用户交互界面——自由畫布,顛覆了人們對工作方式的想象和體驗。
在國內,百度是搶先擁抱可視性畫布的先行者;在海外,Canvas火爆,以ChatGPT、OpenAI為代表的玩家正在不斷完善體驗。
這個新玩意,究竟怎麼用?相比於一張普通畫布,自由畫布的特殊性在於,它可以適配作家、自媒體人、教師、白領等幾乎所有人羣的工作需求,並通過AI、大數據等技術,在“一拖一圈”之間,賦予工作方式的智能化。
在模擬小紅書博主撰寫旅遊攻略內容時,用户可以藉助百度自由畫布輕鬆完成內容的輸入:只需直接拖入素材,如文本、圖片或視頻等人們日常接觸的多達100多種格式的內容,都可以直接呈現在畫布上。

生成出一個大聖穿越到現代探險的故事
**自由畫布的交互方式,自由而非線性,機動而非死板。**大多用户已經習慣了AI創作中略顯僵硬的批量生產,但自由畫布擁有高度的個性化編輯。
用户修改內容時,瞬間變身一位“指揮家”,對局部內容進行輕鬆選擇和調用,快速完成文案、圖片的微調,實現**“指哪用哪,指哪改哪”**。
大多數內容創作者日常面臨高頻次的修改工作、多輪的內容迭代,自由畫布帶來了更動感和自由的交互,增強了用户的參與感和內容的個性化,從而使內容創作者可以得到獨一無二的作品。
自由畫布不僅在內容輸入和編輯環節,擁有強大的協同能力,對於內容分享的體驗,也極其重視。
無論是分享,還是查看和二次編輯,用户可以僅通過一個鏈接完成。其中,二次編輯帶來的不同體驗尤為突出。
傳統的內容導出,一旦出錯無法更正,重新發布的代價高,但很多時候,用户還會有再次編輯的需求,自由畫布的二次編輯解決了用户的痛點。
數年以來,AI技術對於內容創作領域不斷產生影響,改進了現有產品或服務。百度自由畫布,利用新技術滿足了內容創作者對靈活、高效服務的需求,甚至讓每個人都能無門檻地涉足更多類型內容的製作中。
自由畫布,不僅顛覆了傳統的內容生產工具,也超越了現有的AI創作工具。
它是一個全新的生產力平台,通過將Word、PPT、Excel等常見的辦公工具,放到一張自由畫布上,其成為一個涵蓋Office全家桶+Canvas的產品,不僅打破用户苦惱已久的孤島問題,也將改變用户的日常工作流程。
2、AI生圖進入“超真實”時代,iRAG究竟有多強?
在生成式AI時代,AIGC的應用範圍,從文本、圖片延伸至視頻場景。工作過程中,一句話的輸入、一次鼠標的點擊,就能完成一次創作。
然而,真正的挑戰在於,用户越來越不習慣於那股“AI味”,甚至是AI幻覺。
在大會上,李彥宏展示了一張北京天壇的生成照片——真正的天壇是3層建築,該開源模型卻生成了4層。
他提及,幻覺問題是大模型廣泛應用的最大限制之一,“要想基於大模型開發應用,消除幻覺是必須的,如果這個模型總是一本正經地胡説八道,就不會有人信你,就不會有應用。”
過去一段時間,用户對AI工具的生成能力提出了更高需求,例如,更真誠走心的語言、更精細真實的圖片等。
**而各個企業要做的就是,跨越技術的複雜性,提升用户的滿意度。**為了解決幻覺問題,今年初百度自研了iRAG技術,這是一種結合檢索和生成的技術方法,更好地提升了生成內容的可靠性和準確性。
例如,用户在體驗文章的封面圖製作時,可能會在文心一言的輸入框中寫下以下需求:幫我畫一張馬斯克和一隻迅猛龍在後備箱裏剝豆角。
用户會發現,文心一言完美理解了提示詞,生成的圖像沒有漏掉任何一個人物或物體的特徵,臉部或手部等細節處呈現得足夠精細,還兼顧了圖片的構圖和審美。

文心一言AI生圖
市面上較為成熟的大模型,往往具有強大的文本理解能力。作為重要的選手之一,百度擁有國內最大的中文搜索引擎,以及全網最全的中文語料。
iRAG技術成功實現自研的基礎,便是將百度搜索的億級中文語料、圖片資源,與強大的基礎模型能力相結合,避免了事實錯誤、推理失敗等“一眼假”問題,真正實現無幻覺、超真實。
用户可以通過iRAG技術,生成特定物品、特定人物與任意背景結合的圖片,這提升了生成效果的多樣性,也激發了用户發揮自身想象,通過合理組合人物、構架場景,創造出更豐富的AI生圖。
例如,用户可以上傳保時捷帕拉梅拉的圖片,生成其在草原上行駛的畫面;生成一張比薩斜塔和自由女神像,同框出現在中心城區的照片;生成一張福建土樓出現在現代都市裏的圖等。

生成保時捷帕拉梅拉在草原上行駛的圖片
文生圖技術的持續迭代,為內容創作者和行業帶來了更多可能性。
當iRAG技術能夠突破數據要求和計算難度,產出令人滿意的文生圖,也就意味着,可以順利幫助內容創作者突破算力瓶頸,縮短內容製作週期。同樣的作品,在更短的時間內製造出來,且內容精良程度還會大幅提升。
同時,以更低的成本進行內容生產,也是iRAG為行業帶來的直觀影響。在部分環境,iRAG技術可以將創作成本壓縮到幾乎為零。
“比如在品牌宣傳場景,以前拍這樣一組海報動輒需要一二十萬,甚至大幾十萬,但是現在創作的成本接近於0。簡單説來,iRAG的商業價值體現在:無幻覺、超真實、沒成本,立等可取。”李彥宏提到。
隨着百度不斷攻克技術難點,iRAG的應用場景也在不斷延伸,包括漫畫作品、連續畫本、海報製作、影視作品等應用領域,iRAG為提高AI生成內容的真實感和精細度,下足了功夫。
iRAG技術泛用到更多應用空間,也為這些行業提供了短週期、低成本的解決方案。
3、百度再進化:用AI連接一切業務,重塑內容生態鏈條
作為生成式AI和大模型技術的領先玩家,近年來百度的技術進階和應用佈局實現大幅進步。
從深度學習框架“飛槳”的持續升級,到文心大模型性能的提升,再到內部不斷重構已有產品,百度已形成一個處於動態且正向循環的AI商業生態。
無論是AI創作新物種自由畫布的橫空出世,還是AI生圖技術iRAG的能力躍遷,背後都離不開百度深厚的積累和實踐。
自由畫布的自由、靈活、高效,源於文心大模型的持續進化。從創作自由度來看,文心大模型的跨模態能力,能夠支撐不同領域、不同模態的內容生成,在提升效率的同時,也為用户提供了更好的使用體驗。
而文心大模型的升級,也為iRAG技術的高質量生成提供了技術可能。隨着百度對大模型性能的提升,今年6月份發佈的文心大模型4.0 Turbo,比上一版速度更快、效果更好,理解、生成等基礎性能均有顯著提升。
在供給側,百度不斷迭代出最強大的基礎大模型系列,包括文心大模型旗艦版ERNIE 3.5、4.0、4.0 Turbo,也提供可以免費調用的輕量版ERNIE Speed、Lite、Tiny,降低了用户的使用門檻。
截至11月初,百度文心大模型的日均調用量已經超過15億,相較一年前首次披露的5000萬次,增長近30倍。

隨着AI技術能力不斷進化,百度也在擴大AI落地應用的規模。
在重構業務中,百度文庫的進化效果顯著,其從一個文檔共享平台進化為內容創作的“AI百寶箱”,將應用場景拓展到了學習辦公、家庭教育、娛樂消費等多個領域,推出了智能PPT、智能寫作、思維導圖等上百項AI能力。
如今,百度文庫AI月活用户規模,已經達到國內第一梯隊。據其披露的數據,百度文庫在智能PPT領域的市場份額已經超過八成;截至2024年10月,百度文庫AI用户數累計超過2.3億,AI功能累計使用次數超過28億。
百度的最終目標是,在大模型時代形成由無數智能體構成的智能生態。
李彥宏認為,智能體是AI應用的最主流形態,即將迎來它的爆發點。“在模型之上構建智能體是相當方便的,這也是為什麼今天每週都有上萬個新的智能體在文心平台上被創造出來。”
AI搜索被認為是智能體分發的入口。藉助AI,百度的搜索引擎變得更懂用户的細分需求,可以為用户提供更準確和直接的答案,也提升了開發者效率,開發者更容易創建出為用户量身定製的智能體。用李彥宏的話説,生成式AI與搜索就是“天作之合”。

作為工具類智能體,自由畫布便是智能生態中各業務相互融合後形成的獨特產物。
它的能力來源於百度文庫與百度網盤,前者為其提供了海量的公域資料,後者則協助其從私域中提供素材。比如,文庫上公開的高質量文檔或片段、網盤聽記上記錄的多場電話會議的音頻等,用户全都可以用到自己的創作中。
**兩大業務深度融合後,幫助自由畫布打通了過去公域與私域資料之間存在的限制,避免了AI應用之間數據流通的孤島現象。**用户通過自由畫布可以不受阻礙地進行內容資源的消費或運用,以創作多元化和專業化的內容。
而更高質量的AI生成內容,又可以豐富整個內容生態,進一步改變用户AI產品或工具的價值認知,驅動用户擁抱被AI改寫的內容消費。
百度一直極為重視挖掘AI時代的增長潛力。李彥宏也曾在公開場合呼籲,“中國有數百個基礎模型,但人們越來越多地討論什麼是AI時代的超級應用”,行業參與者應當將精力放到AI應用上。
事實上,百度已經在大模型與AI應用的相互配合之中,將技術優勢轉化為具體的商業價值——越來越多創新產品可以為整個生態提供發展增量。
接下來的事情就要交給時間:持續保持在產品創新、市場推廣等方面的投入,提升用户滿意度和產品的市場接受度,不斷穩固其市場地位,並等待用户需求爆發的那一刻。