Deep Research Agent V2亮相背後_風聞
产业家-产业互联网第一媒体41分钟前

從多模態檢索能力到深度多模態瀏覽器智能體再到檢索底層能力的強化,從並行架構到MCP多智能體協作機制,在崑崙萬維一系列模型動作和更新的天工超級智能體背後能看到的也恰是一個在被悄然推進的AI演進路徑:智能體正在從AI辦公生產力工具到真正的超級AI助手,獨立檢索,獨立理解,獨立表達。
2025年,超級Agent的iPhone時刻,正在加速來臨。
作者|皮爺
出品|產業家
對於張小龍,《騰訊傳》裏有句話是這樣描述的,即在騰訊內部,張小龍的名氣主要來源於兩方面,一是公司某次運動會網球賽的冠軍,二是全廣州最大的KENT香煙消費者之一。
而這個描述伴隨着2011年微信1.0版本的發佈似乎開始不太準確——微信成了張小龍的唯一代名詞。根據騰訊剛剛發佈的第二季度財報數據顯示,迄今為止微信月活超14億,約等於中國總人口。
微信做對了什麼?在過去的多年時間裏,關於這個問題一直是產品經理們關注的焦點,從PC互聯網到移動互聯網再到AI,微信的設計和發展路徑都可謂是一眾產品的絕對對標。
一個相對共識的觀點是,微信是整個中國移動互聯網時代的能力集大成者,從語音技術到社交通信的技術底層,從UI設計到需求滿足的產品表層和內部信息流轉流程,每個完備的單點組件串聯到一起,構成着這款超級APP應用的從量變到質變的全民接納和爆發。
歷史總是驚人的相似。如今,這樣的量變信號也正悄然出現Agent應用熱潮裏。
就在剛剛,崑崙萬維發佈了Deep Research Agent,首次把多模態檢索理解和跨模態生成能力完整整合到深度研究工作裏,以“Agent賦能Agent”,近一步強化天工超級智能體的能力。
被放到台前的不僅這些。在過去的一週裏,崑崙萬維已經成為國內AI市場的絕對焦點——從8月11日至8月15日,其每天都在發佈一款新模型,從視頻生成模型、世界模型,到統一多模態模型、智能體模型,再到AI音樂創作模型。
這些模型在強化AI在各自領域場景表達的同時,也更在推動着Agent infra一個個組件的日趨成熟。
2025年的如今,未來終極形態的Agent產品到底是怎樣?沒人可以給出定義,但在一個個產品動作和模型信號背後,能清晰看到的是基座能力的量變正在愈發迅速。
如果説之前的Agent平台更多的標籤是AI基礎搜索的單點,那麼如今在這個單點之上,對新需求拆解和滿足能力背後的底層技術體系也恰在成為更新的產品衡量標準,如多模態檢索生成,再如深度信息檢索等等。
看見新需求,解決真問題。Agent,正式進入比拼下半場。
一、“真”多模態、“強”深度搜索,
再進一步
在釐清Agent產品的更新標準之前,先來看一看崑崙萬維的最新Agent交卷: Deep Research Agent v2,從更大的視角來看,這個“To Agent的Agent”更等同於為天工超級智能體疊加了一層更強的技術基底。
首先看最基礎的檢索能力,如今在Manus之後,一個更新的需求恰是多模態檢索,換言之則是人們期待通過Agent助手不單純獲得文字層面的答案,而更多是來自圖像、文字的複合信息回答。
關於多模態,如今市面上大部分Agent產品能達到的能力更多是在生成側,而在檢索側也更多僅僅是基於最終的文字進行圖表轉換呈現,在最前端的深度檢索方向很少有Agent產品很做到,這也恰是Skywork Deep Research Agent v2的最新亮點。


檢索“AI大模型對教育行業影響”的相關問題時,Skywork Deep Research Agent v2會自動檢索對應的圖片信息,並在理解圖片後將圖片內容和文字內容進行綜合輸出
即在問題的檢索過程中,基於Skywork Deep Research Agent v2的加持,天工超級智能體將不再侷限於文字,而突破性地把圖像信息也作為核心的信息檢索要素之一,通過對圖像、文字的綜合理解,最終輸出答案。

檢索房價相關問題時,會自動把對應網站的“城市房屋價格曲線”作為信息檢索源,將其與文字內容結合進行思考輸出;

檢索“K12在線教育產品”的相關問題時,會自動檢索市面上對應k12產品的用户畫像圖片,理解圖片內容的同時,更結合文字進行圖文並貌的輸出;
如果説多模態檢索提升的是天工超級智能體在對象要素層面的檢索能力,那麼深度信息檢索則提升的是其在檢索體系上的提升,拆解來看其中有兩大亮點:一是革命性推出深度多模態瀏覽器智能體,二是通過制定標準的方式,近一步強化深度信息檢索底層能力。
先來看深度多模態瀏覽器智能體,從整個AI市場來看,AI瀏覽器是炙手可熱的AI落地領域,其以用户在移動互聯網時代存留的搜索入口習慣為切入點,基於瀏覽器入口的形態進行對應AI技術的驗證和落地,不僅在國內,在國外也更有包括Perplexity、 OpenAI等紛紛下場,但就當下而言,AI瀏覽器可謂是問題頻出。
比如強耗電和反應慢,不少人對AI瀏覽器的反應是慢,如果細看對應的檢索思考過程,則是不難看到不少瀏覽器Agent容易陷入反覆驗證、反覆“撞牆”的過程,由此對應的是“三個任務運算一天”的戲談。
問題還不僅這些。幾個其它問題還有,如AI瀏覽器很難繞過用户的文檔、網頁權限,一旦觸碰到對應的限制則會自動停止思考推理;再如耗電,如最近熱議的某些AI瀏覽器運行時會給用户終端帶來極大的硬件損耗等等,以及最核心的能力層面,即對大部分AI瀏覽器而言,其更多仍然沒有逃脱瀏覽器的固有限制,僅是圍繞之前的瀏覽器頁面進行檢索,增量極為有限。
這也是Skywork Deep Research Agent v2特殊設計的意義所在。即基於其中的深度多模態瀏覽器智能體,用户不僅可以獲得互聯網上的相關信息,更可以獲得跨平台的全體系內容呈現,如推特、instagram、知乎、小紅書等,從內容本身到圖像,從彈幕到底層評論區等等,一些客觀和主觀的要素都會被識別分析,共同成為天工超級智能體回答的檢索思考依據。


檢索“香港旅遊攻略”,會自動基於小紅書進行信息檢索,結合小紅書內容貼和評論區反饋等信息,綜合給出方案;

在對比 Grok4 與 GPT5 時,會自動前往 Twitter、小紅書等平台檢索相關信息,並整理彙總用户的真實評價與反饋;

查詢相關球星信息時,智能體會自動跨平台抓取並整理球星最近推文的熱度指標與代表性評論,快速呈現輿論全貌;
此外,基於深度多模態瀏覽器智能體的並行搜索、多動作規劃機制,可以大大提升檢索生成效率,從而讓任務可以迅速執行、迅速反饋;在涉及到需要用户接入的環節(如驗證碼等),智能體會自動提醒用户進行接管操作。
在深度多模態瀏覽器智能體之外,Skywork Deep Research Agent v2還進一步夯實了天工超級智能體的檢索基礎能力,通過一系列“標準”路徑的設定,讓其在進行問題回答、檢索以及生成答案時,必須遵循對應的思維鏈邏輯和生成更為優質的答案。
比如制定了嚴格的搜索問題構造標準,明確定義了高質量搜索問題及其答案應具備的五大核心屬性:多樣性(覆蓋廣泛的主題和難度層次)、正確性(答案准確無誤)、唯一性(答案具有確定性)、可驗證性(答案可通過可靠來源驗證)以及挑戰性(需要深度推理能力),這套標準也更同樣被用在智能體生成的答案驗證中。
再比如端到端強化學習、並行推理等等方面,Skywork Deep Research Agent v2也都通過一系列特殊設計保障智能體能夠在輸出最終結果之前進行多輪驗證和優化思考,最終快速高效準確地輸出答案。
客觀來看,Skywork Deep Research Agent v2為天工超級智能體加持的三個突破點也恰對應着當下人們對於Agent產品的更新要求:即對問題的更多維度回答和理解、更快的問題解決速度、更跨平台全方位的內容呈現以及更符合人類思維鏈的真實邏輯文字。
也可以説,這些也恰是Skywork Deep Research Agent v2多模態檢索能力、深度多模態瀏覽器智能體、深度信息搜索能力的產品核心設計出發點,即把Agent infra中檢索推理思考回答的每個節點分別進行完善放大,進而為用户提供更為契合的AI生產力加持。
二、“Agent賦能Agent”:
Agent集團軍時代到來
在Skywork Deep Research Agent v2破圈之中,一個更大視角的思考是,如今的Agent到底走到哪了?
過去的兩年時間裏,Agent已然成為人們對於AI大模型落地的共識,即基於Agent的形態,不論是在TO C的場景,還是在產業TO B的具體環節,AI技術都可以得到更大程度的價值釋放和表達。
這其中也更有一系列如Manus、Betteryeah、Dify等TO C或TO B的智能體產品出現。但共識之外,真實的答案卻並不算完美。
即除了前文所説的AI瀏覽器的問題之外,在即使如Manus等智能體產品上,一系列的幻覺、數據安全、反映遲緩以及“低價值”答案等等都在不斷讓人懷疑Agent的價值所在——Agent產品到底應該如何進化,才能成為真正的生產力工具?
從某種程度來説,Skywork Deep Research Agent v2在提供一個答案。即不論是Skywork Deep Research Agent v2所呈現出的多模態檢索,還是深度多模態瀏覽器智能體以及底層檢索基礎能力的強化,這些在特定節點可以取得更優秀得分的“AI組件”如今都已經被嵌入到天工超級智能體APP中,進一步迭代天工超級智能體的infra底層邏輯,讓其可以一步步進化。
具體來看,這些更優秀的得分源自對對應節點技術的優化。
比如在升級的多模態檢索能力中,其採取的多模態爬取和長距離多模態信息收集,前者內置了“視覺噪聲剪枝(Visual Noise Pruning)”,通俗來説就是識別篩選所有抓取元素中的有價值部分,將有價值的信息推進後續處理,提高任務的推進速度,節省計算資源。
後者則是Skywork Deep Research Agent v2仿照資深研究員的閲讀節奏,通過“先篩選、後精讀”的流程,模型在每一步推理時,不僅審視當前動作的結果,還會綜合前面幾十步數萬字的上下文,這種模式可以顯著降低計算開銷,同時確保關鍵視覺證據得到充分利用。
再比如在深度多模態瀏覽器智能體,其之所以能夠做到跨平台和全要素識別,也恰是基於崑崙萬維AI團隊對瀏覽器文檔對象模型(DOM)進行的深度優化,其結合瀏覽器原生特性,能夠更精準、高效地提取網頁中的核心信息。
此外,團隊還針對國內外主流社交平台進行了大量的Action(動作)優化,確保在不同社交網絡平台的兼容性與穩定性,提升自動化瀏覽的成功率和效率,規避傳統AI瀏覽器“撞牆”的問題。
同時也更有檢索基礎能力的突破,其也更是基於固有的AI檢索回答推進流程,在每個節點都進行了更為科學合理的強化,同時把市面上最流行的多智能體協作機制真正經由Skywork Deep Research Agent v2嵌入到天工超級智能體產品中,進一步強化後者的Agent infra底層建設,在原來的基礎上進一步提高其智能化上限。
這些從模型和產品技術出發的真實突破也恰構成着Skywork Deep Research Agent v2展現出來的對應節點的Agent能力,而這些能力也更將無縫集成進天工超級智能體的固有流程環節中,為用户提供前端雖無感知但更智能化的回答。
這個結果背後也更折射出一個新的事實,即Agent不再是單純基於某項技術或節點的產品,其更在成為一個集團軍組團作戰的超級APP。
即當用户在進行某個對應的檢索和命令生成時,一個在天工超級智能體內部運轉的流程恰是把從問題提出到解析,到多模態檢索,到答案生成、驗證中間的每個步驟都讓專門的智能體產品來完成,通過對每個環節的專項強化設計讓每個節點都高效、智能、可控,進而傳導輸出一個最大程度契合用户新需求的答案。

或者也可以説,在崑崙萬維的這張答卷背後,能清晰感受到,為了實現最前端的真正智能回答和價值回應**,Agent 產品正在逐漸被原子化、分子化甚至模塊化**,這些原子化的組件通過集團軍作戰的方式,最終成為決定Agent助手能否成為真正生產力工具的關鍵。
三、2025年,
等待超級Agent的iPhone時刻
在知乎上,有人曾經問過這樣一個問題,即移動互聯網開始的真正起點標誌性事件是什麼?其中的高贊回答是iPhone的發佈。即儘管是後續伴隨着App store等體系的成熟,iPhone手機是在4.0乃至5.0版本後才真正風靡世界,但當喬布斯拿出無鍵盤手機的那一刻,也更標誌着移動互聯網時代的來臨。
實際上,在Skywork Deep Research Agent v2,也或者可以説在Skywork Deep Research Agent v2加持後的天工超級智能體背後,也恰能感受到這種時代起點的變遷氣息。
即如果説在2024年,人們對於Agent的想象力還僅停留在微信、支付寶等超級app的身上,即其可以完成近乎一切指令可以達到的任務,那麼如今這些想象則是正在逐步區別化、具像化、實際化。
在如今的天工超級智能體APP上,一系列從工作到生活,再到信息獵奇等更為多維的任務都可以被加速推進,Skywork將其模型能力與工具能力有機融合,構建協同多智能體框架。該系統不僅能夠將多個Agent組織成高效協作團隊,還可在線即時利用Agent的代碼能力動態創建和管理MCP工具,從而顯著提升任務處理能力與環境適應性。

任務在天工超級智能體中整體運轉的流程體系:MCP Manager Agent
這也恰是不同以往任何產品運行邏輯的AI時代超級app的雛形,客觀來看,儘管當下以天工超級智能體APP為代表的產品仍然不能完成全部任務,不能代表終極形態,但一個清晰的信號是,在越來越聰明的它背後,這個超級app的底層基座正在愈發厚重,運行機制也更愈發清晰合理。
幾個最新的成績是,在權威的搜索評測榜單BrowseComp上,Skywork Deep Research性能已超越大多數同類產品,正確率達到27.8%,而一旦開啓自主研發的“並行思考”(Parallel Thinking)模式,正確率更是躍升至38.7%,刷新了行業SOTA紀錄。

更值得一提的是,在並行思考模式下,Skywork Deep Research的正確率會隨着思考時間的增加而持續攀升。

此外,在GAIA測試集中,Skywork Deep Research Agent V2也更斬獲SOTA成績,後者是一個面向通用智能體(Agent)的綜合評測基準,專為在真實環境中衡量AI智能體的多模態推理、網頁瀏覽、工具使用、長期規劃、環境交互與任務執行等關鍵能力而設計。同時,其也更被視為衡量AI是否具備通用智能(AGI)的重要里程碑。

從多模態檢索能力到深度多模態瀏覽器智能體再到檢索底層能力的強化,從並行架構到MCP多智能體協作機制,在崑崙萬維一系列模型動作和更新的天工超級智能體背後能看到的也恰是一個在被悄然推進的AI演進路徑:智能體正在從AI辦公生產力工具到真正的超級AI助手,獨立檢索,獨立理解,獨立表達。
2025年,超級Agent的iPhone時刻,正在加速來臨。期待崑崙萬維在本週帶來更多的AGI驚喜。