加碼多模態能力,夸克發佈全新“AI相機”
胡祥熙

4月27日,夸克AI超級框發佈全新AI相機,上新“拍照問夸克”功能。
資料顯示,基於視覺理解與思考推理的強大模型能力,夸克AI超級框從視覺出發創新下一代搜索體驗,進一步理解和回答物理世界中的各類問題。
作為阿里巴巴AI旗艦應用,夸克AI超級框持續快速迭代,提升超級智能體的多模態能力,打造用户生活、工作、學習的AI超級入口。
功能入口 視頻截圖
據官方介紹,夸克AI相機功能多元。拍下景色照片既可以查找位置,也能讓旅遊助手製定行程;看見不瞭解的文物、動物、植物,拍照問夸克,給出答案的同時也會自帶中外語音講解;跨國旅行時,面對外文菜單,拍照問夸克,也能給出良好翻譯回應;使用夸克AI相機,還可以對照片進行多餘雜物的消除,調整表情、頭髮和服裝,還能讓AI代寫朋友圈文案。
旅遊出行助手功能 夸克官方
同時,使用夸克AI相機也可以充當生活管家。電腦藍屏、電器顯示故障時,拍下相關情況,能獲取解決方法和故障原因;家裏燈泡、變壓器、螺絲等物品損壞,拍照即可知曉該購買哪一款,解決生活中的各種難題。
生活建議功能 夸克官方
夸克AI相機能在健康方面給予指導。看不懂體檢報告數值,拍照可獲得詳細解釋,並生成專屬健康方案;吃藥前拍一拍,能瞭解服用指南和禁忌症狀;尿酸偏高時,還能依據身體狀況生成符合口味的一週食譜,關注各類健康問題。
健康顧問功能 夸克官方
夸克AI相機也可以幫助工作學習。手寫合同字跡潦草,拍照後AI自動補全信息並生成調整好的合同;拍攝複雜圖表,能直接完成計算給出答案;學習代碼遇到參考資料不完整,拍照可復現並添加註釋,助力工作學習。
工作學習助手功能 夸克官方
今年3月,夸克發佈“AI超級框”並不斷迭代用户體驗。隨着“拍照問夸克”上線,“AI超級框”在交互上極大拓展了應用場景。
眼下,多模態能力已經是AI大模型競爭的新一環。
去年,OpenAI推出Sora,實現“一句話生成視頻”;谷歌發佈Gemini,能夠無縫地理解、操作和組合不同類型的信息。而後,國內主要公司也開始陸續跟進,升級旗下AI的多模態能力。
目前,騰訊混元大模型在2024年11月正式上線視頻生成能力,不斷拓展其多模態能力;月之暗面在2025年1月22日發佈了Kimi1.5多模態思考模型,融合文本和視覺數據,支持跨模態推理;字節旗下的豆包在2025年4月發佈了豆包1.5・深度思考模型,其多模態理解與應用場景支持邊想邊搜和視覺推理,國內各大AI大模型紛紛下場,開始了在多模態方面的競爭。
本文系觀察者網獨家稿件,未經授權,不得轉載。