阿里通義上新PPT創作!PC端“效率”功能三合一,聽讀寫一站搞定_風聞
量子位-量子位官方账号-1小时前
魚羊 衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
這年頭,哪有人上班不發瘋的(doge)。
就拿PPT來説,趙曉卉“PPTSD”這詞兒一出,那真是戳到了打工人心坎上。

對啊,PPT是什麼高貴的東西啊!都大模型時代了,就沒有哪個AI能又好又快地幫我搞定這事兒嗎!

還真別説,打工人是會心疼打工人的。就在俺們量子位編輯們孜孜不倦尋找解放雙手的大模型工具的日常中,誒嘿,最近還真又挖到了新神器——
通義直接在網頁版裏上新了“效率”版塊,功能很直給:實時記錄、閲讀助手,還有PPT創作。
其中,PPT創作屬於是新鮮出爐。

簡單來説,主打一個功能是大模型給的,但並沒多大“AI味”。
最關鍵的是,免費。
這咱不得抓緊測試一波——
拒絕PPTSD

具體來説,通義PPT創作主要提供了兩種PPT製作方式。
一句話主題生成PPT:如果你啥思路沒有,只有一句話主題,那麼可以把主題當成Prompt直接扔給大模型。當然,如果你已經有完整的思路大綱,它也支持最多10萬字的超長文本輸入。
**上傳文件生成PPT:**文檔、音視頻文件都支持。

一句話生成PPT那麼就,先給又菜又愛玩的手殘黨同事們,搞一份《黑神話:悟空》攻略(PPT版)吧。
提示詞很簡短,就是:《黑神話:悟空》遊戲攻略。
一份像模像樣的PPT大綱秒速生成:

哪裏看不順眼可以上手修改,懶人黨也可以直接下一步——選模板。

在不提供任何背景資料的情況下,通義生成的PPT能達到什麼樣的效果?
點擊“生成PPT”,等待不到1分鐘,答案即刻揭曉。

應該是基於通義大模型的聯網搜索能力,生成的遊戲介紹裏,《黑神話》的製作方、遊戲引擎等重點信息都沒出錯。

不過大模型本身看上去並沒有被“劇透”,在具體遊戲內容上,有點腦洞大開。但話術組織,設計排版,還真可圈可點。
單看這文案,確實沒什麼AI味兒,説得上是言之有物。

人機協作修改起來也很方便:
點擊文本框既能直接修改文字,也可以一鍵召喚大模型幫忙一起優化文案。

配圖同樣可以交給AI生成。
不會寫提示詞也沒關係,通義PPT內置“咒語書”,點擊即用,也可以作為參考。

看樣子,日常用來糊弄老闆妥妥夠用了(不是)。
上傳文件生成PPT
咳咳,還是回到正經用途上,如果餵給通義PPT更詳細的文檔資料,它又會表現如何?
比如,投餵一份量子位的內部培訓資料,讓通義PPT來幫忙搞定培訓PPT。

效果上be like:媽媽再也不用擔心我開會前做不完PPT。
PPT生成的內容和上傳文件關聯性很高,基本上把文檔重點都劃出來了,直接拿來用問題也不大。

簡單總結一下,通義這波上新的PPT創作,具有以下幾個優點:
言之有物:做到了生成文本更像人話(去AI味),並且不是片湯話,能結合用户需求和上傳文件輸出有信息量的PPT內容。
模板豐富:提供了各個不同場景、行業適用的PPT模板,設計美觀,大學生到上班族都能用。
智能編排:提供了全流程智能編排的能力,可在線實時調整PPT模板編排、PPT配圖智能生成、PPT文本智能改寫等。
量子位進一步扒拉了一下,通義PPT背後的基礎模型是通義千問大模型2.5,相比上一版本,Qwen 2.5的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%,性能超越GPT-4 Turbo。
在對長文檔的支持方面,通義PPT支持1000萬字長文檔,包括PPT、PDF和網頁。
多模態方面,支持上傳最長6小時的音頻、視頻,也可以輸入鏈接導入線上音視頻。

文生圖功能,則是引入了通義萬相的能力。
三合一“通義效率”
值得一提的是,與PPT創作共同存在於通義效率版塊的,還有另外兩個功能:
實時記錄,以及閲讀助手。

不説不知道,這兩者其實都是通義用户的老朋友。
實時記錄,原通義聽悟,是音視頻內容方面的AI助手。
應用場景聚焦課堂記錄、會議記錄,能完成的工作,包括語音轉文字、發言人區分、智能總結等。
界面非常簡潔,選擇語言(能識別中、英、日三種語言),確定需不需要實時翻譯成中文,即可開始在線錄音。
外教課or國際會議,不用愁了。

在通義實時記錄,錄音是實時的,語音轉文字是實時的,英文/日語錄音轉譯成中文是實時的。
連邊轉文字邊修正錯別字,也是實時的。
是真的很實時(手動狗頭)。
不僅可以很好地區分發言人,根據不同發言人整理核心觀點,而且,用户可以邊聽邊選中文段,自己劃重點。
邊開會邊做會議紀要,不是夢。

整個界面的右側板塊,是用來寫寫畫畫自個兒做筆記的部分。
當錄音結束後,這一板塊會劃分成三個區域:
• 導讀:對錄音內容進行AI總結,包括摘要、章節速覽、待辦事項等;
• 腦圖:根據錄音內容整理出思維導圖,幫助快速掌握會議要點和脈絡;
• 筆記:顧名思義,是錄音過程中用户自己記錄下的內容。

關於實時記錄,最後來劃個重點:支持每天20小時的錄製撰寫時長,使用免費!還是免!費!

閲讀助手,功能等同於原來的通義智文。
上來就先告訴你,與實際記錄一樣,它同樣是免費的。
在閲讀助手,各種格式的文檔/論文/圖書,包括PDF(含掃描件)、word、圖片、HTML、Markdown、EPUB、Mobi,無論是網頁鏈接還是播客鏈接,都能被精準速讀。
而且,超多格式伴隨着超大容量——
文檔,可以是長達1000萬字的;音頻視頻,可以是6小時起步的。
非常Nice。

上手測試過程中,我們餵給了它兩本書,分別是193頁、英文版的《我們賴以生存的隱喻》,和500頁、中文版的《埃隆·馬斯克傳》。
首先,很關鍵的一個功能是閲讀助手支持全文翻譯,翻譯速度還很快,幾乎不用等。
對經常讀外文文獻的朋友們來説,真的非常友好。
其次,AI提煉出的導讀部分,也會翻譯成中文呈現。
這一部分由全文概述、關鍵要點、速度導覽等組成;如果丟給它的是論文,還會有論文速讀(核心要點總結)、論文總結(文章優點、方法創新點、未來展望),幫助用户快速理解內容。

如果嫌棄導讀還是太長?
沒關係,指路旁邊的腦圖,分分鐘釐清主要脈絡。

更有意思的是,在閲讀助手裏,用户能針對原文劃詞解讀,輔助理解關鍵點。
可以選擇在板塊底部的對話框,問出所有你不明白不理解的文檔相關問題。
這個功能約等於“讓死的論文活過來交流探討”。

如此這般,實時記錄、閲讀助手、PPT創作,形成了三合一的通義效率。
實時記錄功能能夠迅速捕捉並保存每一個重要信息;
閲讀助手則是輔助位,幫助在知識中篩選、提煉,讓用户短時間內掌握核心要義;
而PPT創作則能借用大模型的AI能力將散落的信息整理成富有邏輯性和視覺衝擊力的展示材料。
這三者相輔相成,共同構成了一個從信息整理、閲讀理解到內容創作的完整工作學習流程;每一步環環相扣,不管是面對工作還是學習,都能事半功倍。
大模型應用想卷,得靠技術和體驗
上面提到的三個功能,都可以在PC端絲滑使用。
多説一嘴,除了PPT創作,另外兩個功能還能在手機端體驗。
“我們希望通過這些工具幫助用户節省時間,提升工作學習效率,激發無限創意。”通義效率產品經理王曉明表示,未來圍繞工作學習場景,通義會持續幫用户用AI技術提效。

通義效率背後,正是基於強大的通義大模型。
阿里旗下通義千問大模型聚焦開源路線,家族陣容龐大,是國內的頭部梯隊玩家,在多個全球評測榜單上也常常名列前茅。
通義近期發佈了全球性能最強的開源模型Qwen2-72B,該模型提升了代碼、數學、推理、指令遵循、多語言理解等能力。多個國內外榜單顯示,Qwen2-72B成為排名第一的中國大模型,也是全球最強的開源模型。
長期耕耘得來的技術優勢,為通義效率提供了源源不斷的創新動力。
而三合一整合後推出的通義效率,精準地圍繞工作學習流程,將信息整理、閲讀理解到內容創作這三大功能進行了無縫打通,形成了一個高效的工作學習閉環。
這一閉環不僅能夠激發用户的創意思維,還能夠顯著提升工作效率。
更為重要的是,通義效率率先將這些功能全部實現在PC端,真正做到了“需求在哪裏,效率就在哪裏發揮作用”。
這種以用户需求為導向的設計理念,使得通義效率在提升用户工作效率的同時,也極大地增強了用户體驗。

當然了,換個視角來看,通義上線“效率”的背後,其實反映了市場的選擇和趨勢——
大模型的應用正在朝着智能化、個性化、一站式、高效率、少人工的方向發展。
這正是大模型在應用層面的本質體現。
隨着大模型日益融入大眾的日常生活,用户在入門上手之後,追求的便是更加卓越的體驗。
如果技術不夠先進,體驗不夠優秀,那麼就容易被用户和市場所拋棄。
因此,大模型的應用落地和推廣,必須走向更實用、更好用的方向。
實際上,我們正在見證這一趨勢的發生,通義效率的選擇,就是最好的證明之一。
它告訴我們,應用落地和推廣,只有真正滿足用户需求,提供優質體驗的產品,才能在AI 2.0的模型與應用大潮中站穩腳跟。