特斯聯首席科學家邵嶺提出基於多級表徵學習的RVOS新框架
【環球網科技綜合報道】圖像分割技術是計算機視覺領域的重要研究方向,也是該領域其他應用的一個重要前期步驟。近些年來,隨着深度學習技術的逐步深入,圖像分割技術有了突飛猛進的發展,尤其在場景物體分割、人體背景分割、三維重建等技術在無人駕駛、增強現實等城市數字化領域得到了廣泛應用。
近日,特斯聯科技集團首席科學家兼特斯聯國際總裁邵嶺博士及團隊提出具有語義對齊的多級表徵學習框架解決指定視頻目標分割(Referring Video Object Segmentation, RVOS)中存在的問題,在該領域形成科研突破,且相關研究成果(標題為: Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能領域頂級會議CVPR(國際計算機視覺與模式識別會議)收錄。
據介紹,該項研究突破可概括為三個方面:首先,提出了一個基於多級表徵學習的RVOS新框架。它通過更豐富、更結構化的視頻表徵,排除了單幀建模的侷限性,保證了更加精準的語言-視覺語義對齊;第二,引入了動態語義對齊(DSA),它在匹配語言語義與不同級別的視覺表徵時採用了更有效的自適應對齊;第三,該方法在兩個具有挑戰性的數據集上實現了引人注目的表現,包括Refer-DAVIS17和Refer-YouTube-VOS。值得注意的是,對於Refer-DAVIS17上的J,該方法比最好的單幀建模方法獲得了6.6%的顯著提升,同時在兩個數據集上實現了53.2FPS的高推理速度。
總體而言,在這項最新研究中,邵嶺博士團隊提出了一種新穎的多級表徵學習框架來處理RVOS任務,通過編碼視頻、單幀和目標級語義,提供了一個強大且信息豐富的視覺表徵;通過引入動態語義對齊機制,對不同模態可以進行自適應融合。這一研究突破可以進一步提升視頻目標分割的精確度及效率,使相應技術得以高效應用於城市中包括安防、應急等場景。