計算機視覺行業研究:開啓人機交互的未來_風聞
融中财经-股权投资与产业投资媒体平台。1小时前

行業概述
(1)行業定義
計算機視覺(Computer Vision)是人工智能領域的一個重要分支,旨在賦予計算機類似人類的視覺能力,使其能夠提取、處理、理解和分析圖像及視頻內容。計算機視覺的核心技術包括特徵提取、目標檢測、圖像分割、3D重建等。
圖表1 計算機視覺識別效果示意圖

信息來源:融中研究整理
(2)行業分類
計算機視覺的行業分類可以根據其核心任務和應用領域進行劃分。以下是計算機視覺的主要分類:
(1)對象檢測(Object Detection)
對象檢測的目標是在圖像中定位出目標對象的位置和輪廓,這些目標對象可以是人物、車輛、物品等。對象檢測技術在安全監控、智能駕駛、人機交互等領域有着廣泛的應用。
(2)圖像分類(Image Classification)
圖像分類的目標是將輸入的圖像自動分類到預定義的類別中。這項技術廣泛應用於圖像內容識別、智能相冊、廣告推薦等領域。隨着深度學習技術的發展,卷積神經網絡(CNN)已成為圖像分類的主流方法。圖像分類可進一步發展為實例分割(Instance Segmentation)和語義分割(Semantic Segmentation):
實例分割:實例分割在圖像分類的基礎上,進一步區分同一圖像類別的不同對象實例,在機器人交互、精細農業、醫療影像分析等領域有着重要應用。語義分割:語義分割旨在將圖像中的每個像素分配給特定的語義類別,實現對圖像內容的深入理解。例如,將圖像中的天空、草地、人物等分別標註出來。語義分割技術在自動駕駛、機器人導航等領域具有廣泛應用前景
(3)三維計算機視覺(3D Computer Vision)
三維計算機視覺包括三維重建、3D物體檢測和識別、三維語義分割等任務,為虛擬現實(VR)、增強現實(AR)、3D建模、機器人導航等應用提供基礎。立體視覺、多視圖幾何、點雲生成和融合是實現三維視覺的關鍵技術。
(4)目標跟蹤(Object Tracking)
目標跟蹤關注在視頻序列中準確跟蹤目標對象的位置和運動軌跡。這要求算法不僅能識別目標對象,還要分析和預測目標在連續幀間的運動。目標跟蹤技術在視頻監控、運動分析、智能導航等領域具有應用價值。基於深度學習的跟蹤算法在處理複雜場景和動態目標時展現出優異性能。
圖表2 目標跟蹤示意圖

信息來源:CSDN,融中研究整理
(5)視頻理解與分析(Video Understanding and Analysis)
視頻理解與分析涉及對視頻內容的識別、解釋以及時空結構的推理,包括視頻分類、動作識別、視頻生成和編輯等任務。這項技術在監控、醫療、教育等多個方向展現出廣泛的實用價值。
(3)行業特徵
(1)多學科交叉
計算機視覺是一個涉及計算機科學、工程學、物理學、生物學、認知科學等多個學科的交叉領域。其中,生物學、認知科學研究人類的視覺與認知,是研究計算機視覺的基礎;計算機科學中的理論、算法、架構等研究計算機視覺的工具;工程學、物理學便於計算機視覺應用於對現實世界的分析。計算機視覺利用這些學科的理論和方法,使計算機能夠模擬人類視覺系統,完成圖像和視頻的提取、處理、理解和分析。多學科交叉在計算機視覺的技術發展和迭代中持續發揮重要作用,例如:將注意力機制引入到計算機視覺領域、將知識圖譜作為輔助信息進行復雜的計算機視覺任務分析等。
(2)行業應用廣泛
計算機視覺技術在交通運輸、醫療、製造業、農業、零售業等行業均有廣泛的應用。
1、交通運輸行業
自動駕駛:計算機視覺用於檢測和分類物體(如路標或交通信號燈)、創建3D地圖或運動估計,使自動駕駛汽車成為現實。行人檢測:自動識別和定位圖像或視頻中的行人,用於自動駕駛、交通管理等領域。車位佔用檢測:跟蹤停車場車位使用情況,可與車牌識別結合進行繳費和放行。流量分析:基於攝像頭拍攝畫面進行交通流量跟蹤和估計,幫助設計更好的交通管理系統。路況監測:用於評估基礎設施狀況和路面缺陷檢測。
2、醫療行業
癌症檢測:利用計算機視覺技術識別可能存在的異常和變化,用於乳腺癌和皮膚癌等癌症的檢測。輔助診斷:分析CT、核磁共振、X射線等成像結果,輔助醫生進行病理診斷。運動分析:分析患者的運動情況,幫助醫生診斷神經和肌肉骨骼疾病。
3、製造業
質量控制與缺陷檢測:通過圖像識別和模式匹配算法,計算機視覺系統能夠自動檢測產品尺寸、顏色、圖案等是否符合質量標準。例如,在手機制造過程中,計算機視覺技術可以用於屏幕顯示檢測,判斷顯示是否正常,從而提高產品的整體質量和生產效率。智能製造與自動化:隨着智能製造的發展,計算機視覺技術被嵌入工業機器人控制系統,通過精準化的識別和抓取,大幅提高了生產過程的柔性和靈活性。安全監控與事故預防:通過監控工人防護裝備的穿戴情況、工人的操作行為和設備的狀態,計算機視覺系統能夠識別潛在的危險並及時發出警告,從而預防事故的發生。
4、農業
作物和產量監測:持續即時監測作物生長,檢測由於營養不良或疾病引起的生長情況和產量變化。雜草和昆蟲檢測:智能檢測雜草,識別、分類和計數威脅作物的昆蟲,有助於實現農藥的適量、精準投放。牲畜健康監測:即時監控牲畜狀況及其行為,監測並分析健康情況。
5、零售業
監控分析:分析店內攝像頭拍攝畫面,檢測可疑活動並提醒員工。補貨提醒:跟蹤貨架上的物品,提供關於缺貨的即時通知,協助進行庫存管理。人流量統計:檢測和統計進出商店的人數,方便調配人手、組織排隊等。
(4)發展歷程
數據治理行業內的參與者主要包含三類,分別為獨立數據治理服務提供商、大型科技公司、雲服務商。
(1)20世紀50年代:二維圖像分析和識別的出現
1959年,神經生理學家David Hubel和Torsten Wiesel通過貓的視覺實驗,首次發現了視覺初級皮層神經元對於移動邊緣刺激敏感,發現了視功能柱結構,為視覺神經研究奠定了基礎。這一發現促成了計算機視覺技術40年後的突破性發展,奠定了深度學習之後的核心準則。同年,Russell Kirsch和他的同事研製了一台可以把圖片轉化為被二進制機器所理解的灰度值的儀器,被認為是第一台數字圖像掃描儀。從此,處理數字圖像開始成為可能。
圖表3 貓的視覺實驗示意圖

信息來源:CSDN,融中研究整理
(2)20世紀60-70年代:理論體系的形成
1965年, Lawrence Roberts《三維固體的機器感知》描述了從二維圖片中推導三維信息的過程,開創了以理解三維場景為目的的計算機視覺研究。Lawrence Roberts對積木世界的創造性研究給人們帶來極大的啓發,之後人們開始對積木世界進行深入的研究,從邊緣的檢測、角點特徵的提取,到線條、平面、曲線等幾何要素分析,到圖像明暗、紋理、運動以及成像幾何等,並建立了各種數據結構和推理規則。
1977年,David Marr在MIT的AI實驗室提出了計算機視覺理論,使計算機視覺有了明確的體系,促進了計算機視覺的發展。
(3)20世紀80-90年代:理論和技術的不斷突破
1980年,日本計算機科學家Kunihiko Fukushima在Hubel和Wiesel的研究啓發下,建立了一個自組織的簡單和複雜細胞的人工網絡——Neocognitron,包括幾個卷積層和濾波器。這些濾波器的功能是在輸入值的二維數組(例如圖像像素)上滑動,並在執行某些計算後,產生激活事件(2維數組),這些事件將用作網絡後續層的輸入。Fukushima的Neocognitron可以説是第一個神經網絡,是卷積神經網絡(CNN)中卷積層+池化層的最初範例及靈感來源。
1982年,日本COGEX公司研發出視覺系統DataMan,是世界第一套工業光學字符識別(OCR)系統。
1989年,YannLeCun將一種後向傳播風格學習算法應用於Fukushima的卷積神經網絡結構。在完成該項目幾年後,LeCun發佈了LeNet-5。這是第一個引入今天仍在CNN中使用的一些基本成分的現代網絡。如今,CNN已經是圖像、語音和手寫識別系統中的重要組成部分。
1997年, JitendraMalik和他的學生髮表了一篇論文,試圖讓機器使用圖論算法將圖像分割成合理的部分,即自動確定圖像上的哪些像素屬於一起,並將物體與周圍環境區分開來。
(4)21世紀初:高質量數據集與深度學習的出現
2006年,Pascal VOC項目啓動。它提供了用於對象分類的標準化數據集以及用於訪問所述數據集和註釋的一組工具。
2006年左右,Geoffrey Hilton和他的學生髮明瞭用GPU來優化深度神經網絡的工程方法,並發表在《Science》和相關期刊上發表了論文,首次提出了“深度信念網絡”的概念。他給多層神經網絡相關的學習方法賦予了一個新名詞 “深度學習”。此後,關於深度學習的研究不斷湧現,廣泛應用在人工智能各領域。
2009年,李飛飛教授等在CVPR2009上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,發佈了ImageNet數據集,旨在檢測計算機視覺能否識別自然萬物。2010-2017年,基於ImageNet數據集共進行了7屆ImageNet挑戰賽,將目標檢測算法推向了新的高度。
(5)2010年至今:算法的不斷迭代
2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 創造了一個“大型的深度卷積神經網絡”,這是史上第一次有模型在 ImageNet 數據集表現如此出色,將機器識別的錯誤率從25%左右降低至跟人類相比差別不大。
2014年,蒙特利爾大學提出生成對抗網絡(GAN):擁有兩個相互競爭的神經網絡可以使機器學習得更快。一個網絡嘗試模仿真實數據生成假的數據,而另一個網絡則試圖將假數據區分出來。隨着時間的推移,兩個網絡都會得到訓練,生成對抗網絡(GAN)被認為是計算機視覺領域的重大突破。
此後,計算機視覺算法不斷迭代優化。例如,Facebook聲稱其DeepFace人臉識別算法有着97.35%的識別準確率;Lin, Tsung-Yi等提出特徵金字塔網絡,可以從深層特徵圖中捕獲到更強的語義信息;亞馬遜網絡服務(AWS)宣佈對其識別服務進行了一系列更新,為雲客户提供基於機器學習的計算機視覺功能。客户將能夠在數百萬張面孔的集合上進行即時人臉搜索等。
(5)行業規模
近年來,中國計算機視覺市場規模持續增長。根據Frost & Sullivan、IDC的統計以及國海證券研究所的預測,2021年中國人工智能市場規模2,603億元,佔全球人工智能市場規模的23.9%,其中計算機視覺市場規模845億元,占人工智能市場規模的32.5%。預計到2025年,中國人工智能市場規模10,457億元,佔全球人工智能市場規模的20.9%,年增長率從2018年的58.0%逐步降至2025年的40.0%;其中計算機視覺市場規模2,623億元,占人工智能市場規模的25.1%,年增長率從2018年的105.3%逐步降至2025年的27.6%。
圖表4 2018-2025年人工智能及計算機視覺市場規模

信息來源:Frost & Sullivan、IDC、國海證券研究所,融中研究整理
(6)競爭格局
我國計算機視覺行業市場集中度較高,頭部企業突出,已逐漸佔據主要市場份額。根據國際數據公司(IDC)發佈的《中國人工智能軟件2022年市場份額》,商湯科技以23.1%的市場份額位居第一,其後依次為海康威視、創新奇智 、曠視科技、雲從科技、智慧眼等。
圖表5 國內計算機視覺應用市場主要廠商市場份額

信息來源:IDC、融中研究整理
(7)政策梳理
工信部等部門高度重視人工智能及相關產業的發展,先後出台多項政策,從提升產業鏈競爭力、發展計算機視覺底層技術、挖掘應用場景等方向促進我國計算機視覺產業的發展。
圖表6 計算機視覺行業政策梳理

信息來源:融中研究整理
(8)行業未來發展趨勢
(1)與通信技術的結合
5G網絡的高帶寬和低延遲特性有利於圖像和視頻數據的即時傳輸,這對於需要快速響應的計算機視覺應用至關重要。例如,在工業自動化中,5G可以確保機器視覺系統即時分析處理視頻場景,實現即時控制和決策。5G網絡還能夠支持大量設備的連接,這對於部署大規模的監控攝像頭和傳感器網絡非常有利。在智慧城市、交通監控等領域,計算機視覺可以利用這些連接進行大規模的數據採集和分析。5G網絡與邊緣計算(MEC)的結合可以在計算機視覺算法部署在雲端實現算法的快速自優化和更新的同時,將數據處理和分析任務從雲端轉移到網絡邊緣,提供更近端的數據處理能力,降低延遲,提高響應速度。
(2)多模態信息融合
未來,計算機視覺技術將不僅僅依賴於圖像信息。通過融合圖像文本、音頻等多種模態的數據,計算機將能夠更全面地理解環境提高任務的準確性,與使用者的交互也將變得更加簡單。
(3)無監督和自監督學習
傳統的計算機視覺任務通常需要大量人工標記的數據。為了減少對人工的依賴,無監督和自監督學習的方法開始受到重視。這些方法可以利用大量的未標記數據或者通過自我監督學習來提升模型的性能。
(4)數據監管和隱私保護
由於計算機視覺技術會運用到大量的影像數據,包括靜態及動態視頻等,目前各國對於這些影像數據的監管和隱私保護依舊還是空缺。隨着計算機視覺技術的不斷推動,大量影像的數據保護也將成為大家所關注的問題,在技術快速發展的同時如何對這些數據進行更好的保護,以及影像的版權問題等,在未來都需要一一解決。
產業鏈分析
計算機視覺產業鏈的上游主要提供功能所需的各種軟硬件,包括工業相機、光學鏡頭、光源設備、圖像採集與處理軟件與其他部件等;中游將上游的核心部件集成為各種視覺應用系統,如定位系統、測量系統、識別系統、檢測系統等,能夠實現圖像採集、處理和通信等功能,具有靈活配置、多功能模塊化和高可靠性等特點;下游則是將視覺應用系統應用到各個終端行業中,提供相關的服務和解決方案,應用領域眾多,包括3C電子、汽車、半導體等。
圖表7 計算機視覺產業鏈

信息來源:融中研究整理
企業分析
(1)安防領域
……(全篇內容閲讀原文獲取)
(2)工業領域
……(全篇內容閲讀原文獲取)
(3)消費領域
……(全篇內容閲讀原文獲取)
(4)自動駕駛領域
……(全篇內容閲讀原文獲取)