SAM和IA撞出的驚豔火花_風聞
根新未来-04-22 09:14
文/觀察未來科技
SAM一點,便可將內容分割出來;再由IA一鍵,圖像修補完成。
4月初,由Meta發佈的史上首個圖像分割基礎模型——SAM(Segment Anything Model)一上線,便得到了用户的高度讚賞。短短几天,SAM 的 GitHub 倉庫的Star數高達26k。
那麼,SAM到底是何方神器呢?
作為一種基於卷積神經網絡的圖像分割模型,SAM主要通過計算相鄰像素之間的相似度來實現圖像分割。其核心思想是將每個像素的上下文信息與其自身進行比較,以確定其應該屬於哪個類別。為此,SAM 使用兩個不同的卷積層來計算每個像素與其周圍像素之間的相似度。第一個是空間卷積層,計算像素之間的空間關係;第二個是通道卷積層,計算像素之間的相似度。
SAM 還使用了一種稱為空間親和力機制的技術來進一步提高圖像分割的準確性。所謂空間親和力機制,是指通過計算每個像素與其鄰居之間的相似度來評估像素之間的空間關係,然後將這些相似度值轉換成空間親和力矩陣。該矩陣被用來調整每個像素之間的相似度,從而更好地捕捉像素之間的空間依賴關係。

當SAM遇上圖像修補任務,又會碰撞出怎樣的燦爛火花呢?
來自中國科學技術大學和東方理工高等研究院的研究團隊給出了令人驚豔的答案。基於SAM,他們首次嘗試無需掩碼的圖像修復,並構建了“點擊再填充”的圖像修補新範式,被稱為“修補一切”(Inpaint Anything,簡稱IA)模型。
在IA模型中,SAM發揮着兩方面的應用功能:
首先,SAM通過對圖像進行分割,提取需要修復的區域;其次,SAM利用其在圖像分割中的優秀表現和空間親和力機制幫助模型更好地理解圖像的語義信息,從而提高圖像修補的準確性和效果。區別於傳統圖像修補模型,IA 模型無需精細化操作生成掩碼,只要一鍵點擊,標記選定對象,即可實現移除一切物體(Remove Anything)、填補一切內容(Fill Anything)、替換一切場景(Replace Anything),涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。
結合了SAM、LaMa和AIGC等視覺基礎模型的IA,真正意義上實現了對用户操作友好的無掩碼化圖像修復,同時支持“點擊刪除,提示填充”等“傻瓜式”人性化操作。未來,研究者將進一步挖掘IA的潛力以支持更多實用的新功能。