加碼多模態能力，夸克發佈全新“AI相機”

胡祥熙

2025-04-28

4月27日，夸克AI超級框發佈全新AI相機，上新“拍照問夸克”功能。

資料顯示，基於視覺理解與思考推理的強大模型能力，夸克AI超級框從視覺出發創新下一代搜索體驗，進一步理解和回答物理世界中的各類問題。

作為阿里巴巴AI旗艦應用，夸克AI超級框持續快速迭代，提升超級智能體的多模態能力，打造用户生活、工作、學習的AI超級入口。

功能入口視頻截圖

據官方介紹，夸克AI相機功能多元。拍下景色照片既可以查找位置，也能讓旅遊助手製定行程；看見不瞭解的文物、動物、植物，拍照問夸克，給出答案的同時也會自帶中外語音講解；跨國旅行時，面對外文菜單，拍照問夸克，也能給出良好翻譯回應；使用夸克AI相機，還可以對照片進行多餘雜物的消除，調整表情、頭髮和服裝，還能讓AI代寫朋友圈文案。

旅遊出行助手功能夸克官方

同時，使用夸克AI相機也可以充當生活管家。電腦藍屏、電器顯示故障時，拍下相關情況，能獲取解決方法和故障原因；家裏燈泡、變壓器、螺絲等物品損壞，拍照即可知曉該購買哪一款，解決生活中的各種難題。

生活建議功能夸克官方

夸克AI相機能在健康方面給予指導。看不懂體檢報告數值，拍照可獲得詳細解釋，並生成專屬健康方案；吃藥前拍一拍，能瞭解服用指南和禁忌症狀；尿酸偏高時，還能依據身體狀況生成符合口味的一週食譜，關注各類健康問題。

健康顧問功能夸克官方

夸克AI相機也可以幫助工作學習。手寫合同字跡潦草，拍照後AI自動補全信息並生成調整好的合同；拍攝複雜圖表，能直接完成計算給出答案；學習代碼遇到參考資料不完整，拍照可復現並添加註釋，助力工作學習。

工作學習助手功能夸克官方

今年3月，夸克發佈“AI超級框”並不斷迭代用户體驗。隨着“拍照問夸克”上線，“AI超級框”在交互上極大拓展了應用場景。

眼下，多模態能力已經是AI大模型競爭的新一環。

去年，OpenAI推出Sora，實現“一句話生成視頻”；谷歌發佈Gemini，能夠無縫地理解、操作和組合不同類型的信息。而後，國內主要公司也開始陸續跟進，升級旗下AI的多模態能力。

目前，騰訊混元大模型在2024年11月正式上線視頻生成能力，不斷拓展其多模態能力；月之暗面在2025年1月22日發佈了Kimi1.5多模態思考模型，融合文本和視覺數據，支持跨模態推理；字節旗下的豆包在2025年4月發佈了豆包1.5・深度思考模型，其多模態理解與應用場景支持邊想邊搜和視覺推理，國內各大AI大模型紛紛下場，開始了在多模態方面的競爭。

本文系觀察者網獨家稿件，未經授權，不得轉載。