知乎大模型「知海圖AI」上線！產品官宣即內測，為4億用户摘取「熱榜摘要」_風聞

量子位-量子位官方账号-04-14 14:19

2023-04-14

　　楊淨發自凹非寺

　　量子位 | 公眾號 QbitAI

　　又一家國內企業大模型產品發佈。

　　不是別的，而是已擁有4億用户的最大中文問答社區知乎。

　　而且官宣即內測——

　　不光有首個大語言模型**「知海圖AI」**，首款產品也將應用於熱榜。

　　情理之中，意料之外。

　　一方面，知乎擁有天然的大模型優勢，有場景有應用，最關鍵的還有天然大規模、高質量的中文數據池。NewBing也將其視作中文數據源之一，一時間股價暴漲近50%。

　　這種優勢放眼國內並不多見，此次產品發佈也算是千呼萬喚始出來。

　　但另一方面，在眾多尤其科研工作者認知中，知乎作為知識問答分享平台，每一次技術革命爆發都在這裏圍觀與見證。

　　正如ChatGPT相關話題就已打破當年AlphaGo討論熱度，瀏覽量達4億，討論量近24萬。

　　至於知乎背後相關AI技術和佈局，並不被大多數人所知。

　　現在，知乎主動分享了一切。

　　而且隨着產品的發佈，知乎在大語言模型上的佈局也首次浮出水面。

　　知乎大模型產品官宣即內測

　　在發佈會現場，知乎也釋出了**「熱榜摘要」**的產品形態最新Demo，讓正在等待內測的朋友們先來一睹為快~

　　可以看到的是，“看山”小助手會出現在熱榜的問題下方。

　　然後它會抓取那些優質問答的重要觀點，經過AI算法整理、聚合、潤色後，將回答梗概展現給用户。

　　這樣一來，看熱門問題的同時就能獲取關鍵信息，效率直接拉滿。

　　而這背後的大語言模型CPM-Bee，來自當下飽受市場關注的清華系大模型創業公司面壁智能。

　　據知乎聯合創始人、CTO李大海介紹，CPM-Bee是目前視野範圍內表現最好的中文大語言模型。

　　面壁智能聯合創始人兼CEO曾國洋，也給出了官方內測表現：

　　內容聚合場景下，在41個問題中，有28個問題表現持平。與GPT-4相比基本持平。

　　作為國內最早開展相關研究和探索的公司之一，創始團隊來自清華計算機系自然語言處理與社會人文計算實驗室（THUNLP），劉知遠、孫茂松、劉洋多位教授分別是他們的聯合創始人和顧問。因此在大模型學研轉化、開發落地等方面都有豐富的經驗。

　　產學研轉化這塊，團隊曾最早提出由知識指導的預訓練模型ERNIE，圍繞模型預訓練、提升學習、參數高效微調等這些大模型熱門議題，他們也在國際頂會上發表了數十篇論文。

　　他們也曾開發開源多個大模型，比如：國內首箇中文大模型CPM-1、高效易用大模型CPM-2、可控持續大模型CPM-3……

　　除此之外，法律、生物醫學等垂直領域也開發了專有專用大模型。成立伊始，就與法律、汽車、家電、傳媒等行業龍頭客户達成合作，以及完成近千萬種子輪融資。

　　而就在最近，面壁智能剛獲由知乎領投、智譜AI跟投的天使輪融資。據雙方消息，此次投資合作旨在實現雙方優勢資源的價值共創，共同探索大規模語言模型的上層應用。

　　由此看來，知乎大模型佈局也浮出水面：投資大模型公司，共同打造大模型應用。

　　據透露，與面壁智能之間屬於是深度融合的關係， 每天都要見一面的那種。

　　接下來，在CPM-Bee基礎上，隨着更多的反饋和迭代，新模型有了更強的邏輯推理能力和更快的訓練和推理速度之後，將逐步應用到知乎更多場景中去。

　　比如創作、討論場、信息獲取等。

　　事實上這種路徑也並不陌生，正如微軟與OpenAI。微軟的產品矩陣完美貼合ChatGPT的落地場景，應用的同時又能反哺迭代大模型的能力。於是乎，正是兩者技術與應用的深度融合，才有了震撼全球的搜索引擎、生產力和生產生活的變革，讓企業、個人都能享受到AIGC帶來的潛力和可能。

　　隨之而來的問題是——

　　為什麼走這樣一條路？

　　當前國內大模型的發展，已經遠不能用火熱來形容。這個被認為是比以往任何變革都大十倍的機會，任何企業和機構都不願意輕易錯過，這幾周接踵而至的新進展就可見一斑。

　　不可否認的是，知乎此時佈局大模型，選擇了一條最適合自己的路——

　　用知乎CEO周源的話説，是AI時代新生產力的開發者、以及新場景的創建者。

　　箇中緣由得從國內大模型發展開始拆解。

　　首份**《中國AIGC產業全景報告》**顯示，國內大模型發展大致可以分為三種路徑：基礎設施層、模型層以及應用層。

　　其中，模型層成為當前發展的關鍵卡口，在一定程度上限制了上下層級（基礎設施層、應用層）的發展。

　　至於模型層發展好與不好，歸根結底，主要來自算力和數據這兩方面：算力是支撐背後大語言模型訓練的硬件基礎，而數據則是直接影響模型能力強弱甚至生成質量的關鍵。

　　尤其是中文數據這塊，一方面本質原因，中文相對英文複雜，技術難度高；另一方面，國外英文數據集更豐富，且質量較高。但國內的中文語料並不完善，必要時還需要各家公司來清洗，耗費人力財力。

　　而這恰好與知乎區別於其他平台的獨特優勢有關。

　　我們都知道，模型效果的好壞，既取決於數據的數量，也取決於質量。這一點知乎似乎能做到兩者兼備。

　　在數量方面，2022第三季度財報顯示，知乎社區內的內容量已累計超5.79億條。2022年年度財報顯示，問答量已累計到了5.06億條，覆蓋超1000個垂直領域。

　　尤其在一些專業問題上，更是表現明顯。

　　知乎戰略副總裁、社區業務負責人張寧透露這樣一組關鍵數據：

　　站內從事科研學習和工作的人羣總數高達544萬人。僅科研互聯網領域，就日均圖文生產量兩萬多篇。

　　在數學、物理、天文、人工智能等多個領域的回答、文章和視頻數都超過了100萬篇。

　　而除了數量之外，數據的質量也是尤為關鍵。

　　在ChatGPT發佈之初，經常會出現一些離譜、錯誤的答案。「一本正經地胡説八道」是ChatGPT留給大家的初印象。

　　這背後其實正是與訓練數據的質量有關，數據集中摻雜了諸多魚龍混雜的內容。

　　而在知乎，諸多專業人士的探討、問答機制的篩選構成了內容數據的高質量，甚至有的知乎內容已經直接成冊出書。

　　前段時間，NewBing剛出爐，諸多網友發現一些回答來源正是來自於知乎。

　　周源這樣拆分AI時代的生產力要素，主要分為三層：應用場景、專有數據以及基礎模型。基於問答的討論場，是天然的應用場景。這當中不斷產生的內容、關係和知識圖譜，則是獨一無二專有數據。

　　而以GPT為代表的基礎模型層在快速發展，再結合知乎的應用場景和專有數據，可推動大模型快速的應用落地。與此同時知乎的專業場景，還能反哺大模型技術迭代。

　　事實上，李大海也透露，知乎也正在與各種類型的公司合作，利用自身獨特優勢，助推國內大模型的發展。

　　除了應時之勢的考量，這背後也是迴歸本質順其自然的選擇。

　　在知乎發現大會上，周源再次談及知乎社區一直以來「獲得感」的內容價值觀——

　　讓每個人更好的分享知識、經驗與見解，找到自己的解答。

　　他認為，AI終將服務於人，賦能於人，是人類能力的擴增。

　　於是具體到知乎這一場景下，人機共創就可以幫助創作者更好地發揮創造力、提高內容創作的效率和質量，從而讓更多用户得到幫助、開闊眼界。

　　大模型浪潮下，諸多應用場景被提及。知乎也作為新場景的創建者躬身入局，探索更多價值。

　　回顧以往每一次的技術變革更迭，國內百萬從業者們通過問答、話題、圓桌、想法、專欄、直播等方式在這裏學習與探討、回應和激辯。

　　因此從某種程度上來説，知乎作為關鍵媒介，在國內前沿科技發展進程中起到了不容忽視的作用。

　　尤其在這場全球ChatGPT風暴裏，體會尤為明顯，相關話題瀏覽量達4億，討論量超23.9萬。

　　吳恩達老師在這裏周更博客，呼籲大家理性看待這個浪潮；被王慧文收購、正處風口浪尖的一流科技創始人袁進輝在知乎中尋找着答案……

　　諸多ChatGPT衍生產品在這裏首發誕生：北大團隊推出的ChatExcel、首個公開對標ChatGPT開源項目ChatRWKV 、以及首個國內ChatGPT檢測器……背後的開發者們也現身回應，親自解答網友的疑惑。

　　一羣科研人員、創業者、從業者在這裏彙集聯結，打破時間與空間的壁壘，第一時間探尋前沿動向，進而去推動國內前沿科技的發展。

　　只是現在及未來，知乎將利用自己積累的優勢，以更顯性的方式為中國大模型的發展貢獻力量。