谷歌Gemini AI應用現可將照片轉為短視頻片段 - 彭博社
Natalie Lung
2024年8月16日,拉脱維亞里加市佈置的谷歌Gemini生成式人工智能網頁。
攝影師:安德烈·魯達科夫/彭博社谷歌母公司Alphabet宣佈,付費用户現可通過其Gemini人工智能助手將照片轉換為短視頻片段。這項功能此前僅限特定用户使用,如今正擴大開放範圍。
該公司聲明稱,自本週四起,選定區域訂閲谷歌AI Ultra和Pro計劃的用户可通過Gemini網頁版使用該功能,移動應用程序將在本週內陸續推送更新。
該工具支持用户基於照片及提示框內的場景文字描述,生成帶聲音的8秒短視頻。生成的MP4格式視頻為720p分辨率,採用16:9橫向畫幅。
此次更新使Gemini聊天界面也能使用這一強大功能,助力谷歌追趕OpenAI和專注AI生成的Runway AI等美國競爭對手。該領域全球競爭同樣白熱化:中國的阿里巴巴集團、AI初創企業Manus及快手科技過去數月均發佈了新版視頻工具。
谷歌的圖片轉視頻功能由Veo 3驅動,這是該公司在五月年度開發者大會上發佈的最新視頻生成模型。Veo 3已通過名為Flow的獨立付費電影製作工具向用户開放。
谷歌表示已"在後台採取重要措施,確保視頻生成體驗的合規性"。例如,該功能禁止使用公眾可識別人物(如名人、總統甚至某些知名CEO)的圖片生成視頻。其政策還禁止輸出鼓勵危險活動、煽動暴力或針對個人/羣體欺凌的內容。
但該功能存在缺陷。當彭博新聞測試Gemini網頁版此功能時,上傳個人照片並要求生成人物説話視頻,結果在多組測試中改變了主體的面部特徵,有時甚至改變了人種。
雖然它能成功響應"根據靜態圖像創建植物隨風擺動或會説話的貓"等指令,但無法執行更復雜的提示,例如讓照片中的人物跳霹靂舞。系統最終生成了人物向鏡頭揮手的視頻。
谷歌發言人就彭博測試結果回應稱,AI模型沒有修改人物外貌的指令。他補充説明,圖片轉視頻和麪部動畫仍是新技術,基於單張圖像的生成效果可能無法準確還原原始圖像。
該模型更擅長將其他場景生動呈現,比如為日常物品、繪畫作品賦予動畫效果,以及為自然照片添加動態元素,他説道。公司將在未來的更新中持續改進模型,包括面部動畫功能。