谷歌Gemini AI應用現可將照片轉為短視頻片段 - 彭博社

Natalie Lung

2025-07-10

2024年8月16日，拉脱維亞里加市佈置的谷歌Gemini生成式人工智能網頁。

攝影師：安德烈·魯達科夫/彭博社谷歌母公司Alphabet宣佈，付費用户現可通過其Gemini人工智能助手將照片轉換為短視頻片段。這項功能此前僅限特定用户使用，如今正擴大開放範圍。

該公司聲明稱，自本週四起，選定區域訂閲谷歌AI Ultra和Pro計劃的用户可通過Gemini網頁版使用該功能，移動應用程序將在本週內陸續推送更新。

該工具支持用户基於照片及提示框內的場景文字描述，生成帶聲音的8秒短視頻。生成的MP4格式視頻為720p分辨率，採用16:9橫向畫幅。

此次更新使Gemini聊天界面也能使用這一強大功能，助力谷歌追趕OpenAI和專注AI生成的Runway AI等美國競爭對手。該領域全球競爭同樣白熱化：中國的阿里巴巴集團、AI初創企業Manus及快手科技過去數月均發佈了新版視頻工具。

谷歌的圖片轉視頻功能由Veo 3驅動，這是該公司在五月年度開發者大會上發佈的最新視頻生成模型。Veo 3已通過名為Flow的獨立付費電影製作工具向用户開放。

谷歌表示已"在後台採取重要措施，確保視頻生成體驗的合規性"。例如，該功能禁止使用公眾可識別人物（如名人、總統甚至某些知名CEO）的圖片生成視頻。其政策還禁止輸出鼓勵危險活動、煽動暴力或針對個人/羣體欺凌的內容。

但該功能存在缺陷。當彭博新聞測試Gemini網頁版此功能時，上傳個人照片並要求生成人物説話視頻，結果在多組測試中改變了主體的面部特徵，有時甚至改變了人種。

雖然它能成功響應"根據靜態圖像創建植物隨風擺動或會説話的貓"等指令，但無法執行更復雜的提示，例如讓照片中的人物跳霹靂舞。系統最終生成了人物向鏡頭揮手的視頻。

谷歌發言人就彭博測試結果回應稱，AI模型沒有修改人物外貌的指令。他補充説明，圖片轉視頻和麪部動畫仍是新技術，基於單張圖像的生成效果可能無法準確還原原始圖像。

該模型更擅長將其他場景生動呈現，比如為日常物品、繪畫作品賦予動畫效果，以及為自然照片添加動態元素，他説道。公司將在未來的更新中持續改進模型，包括面部動畫功能。