手上有很多小動作?TA一眼看穿!_風聞
中科院之声-中国科学院官方账号-2019-05-07 16:40
【歡迎關注中科院之聲公眾號(ID:zkyzswx)或微博@中科院之聲,看科學界的大事兒】
圖1 小學數學題(圖片來自網絡)
小時候,我們都做過類似於圖1中的數學題,問題是圖中的動物有幾隻腳或者幾隻手。現在,計算機也能夠回答這個問題啦,其中的原理就是利用人手檢測技術。
圖2 人手檢測結果
**舉起小手,燈被點亮;**搖搖手指,窗簾打開
人手檢測是通過手部特徵的提取,在圖片中將人類的手部標記出來,如圖2所示。人手檢測是進一步進行圖像或視頻分析的重要基礎工作,具有廣泛的應用。
想象一下,當你正在高速公路上開着車,突然來了電話,你的手離開方向盤,拿着手機接了這個電話。晚上回到家,收到一條信息:因為開車接電話被罰款200扣2分。這就是因為監控攝像頭被賦予了人手檢測的能力,通過檢測手部,並持續分析,發現了打電話的動作。
再想象一下,當你下班回到家,只要舉起你的右手,整個房間的燈就全部點亮,再搖搖手指,窗簾自動打開。這麼炫酷的未來智能家居技術,其實都是建立在人手檢測的基礎上,對手勢進行分析,進而觸發對應的指令。
當然,這些其實都只是人手檢測應用的冰山一角,這項技術未來將深入到我們生活的方方面面,包括智能交通、智能家居、異常行為監測等等。
更高效的人手檢測
近期,中科院軟件研究所武延軍團隊在像素級高效人手檢測領域取得新進展,為人手運動視頻的實時檢測估計處理提供了一種新方法。
傳統人手檢測方法利用人工特徵提取與分類器結合,特徵具有侷限性,提取時間開銷大。而基於深度學習的方法對尺度較小的首部區域漏檢概率大,同時網絡結構複雜,訓練和測試時間長,不能達到實時檢測的要求。
以上問題導致現有算法無法同時滿足具體場景中準確率和實時性的要求,嚴重製約了人手檢測在實時視頻處理中的應用。研究人員提出了一種尺度不變的全卷積神經網絡,補充加權特徵融合模塊學習不同尺度的特異性,對網絡的中間層也加入了監督,以迭代的方式融合多個尺度的特徵進行最後的預測,具體網絡結構如圖3所示。
圖3 網絡結構
——他們引入了像素級分割的人手檢測
之前的人手檢測方法,都是直接通過矩形框對圖片中的人手區域進行預測,在這項工作中,他們引入了像素級人手分割方法,預測人手的不規則區域,通過對每個區域的打分,從不規則區域中判斷哪些是人手,所以在精度上,優於直接預測矩形區域的方法。
圖4 像素級人手檢測
——他們考慮了人手的姿態和角度信息
之前的人手檢測方法,只能輸出矩形的人手區域,無法給出更多信息。在這項工作中,研究人員考慮了的人手的不同姿態(握拳、展開等)和角度信息(正反、水平夾角等),能夠將人手的可能姿態與角度進行輸出,為進一步的行為分析提供更多的參考。
圖5 人手的姿態和角度信息
與當前最好方法相比,在保證精度的同時檢測速度更快,將單張圖像處理速度最高提升4.23倍,首次達到62.5 fps。相關成果以Scale Invariant Fully Convolutional Network:Detecting Hands Efficiently 為題發表於國際人工智能會議AAAI Conference on Artificial Intelligence (AAAI 2019),論文通訊作者為中科院軟件所張立波。
**來源:**中國科學院軟件研究所