計算機視覺知識體系

一、計算機視覺:

三個層次:系統工程方案層、領域任務模塊層、基礎算法層。

三方面知識點:圖像處理、機器學習、基礎數學與模型。

視頻的三個場景:近距離(手機、智能硬件、PC等),室內中距離(室內,如辦公室、商場、家內;卡口,門口等),室外遠距離(道路、公共場所等)

二、系統工程方案層:WEB圖像結構化;離線SDK圖像結構化;視頻關鍵幀獲取、結構化、序列化行爲分析、結果圖流媒體;

性能上,高併發;高可用;單張時間,儘量在200ms以內,尤其是視頻;準確度。

三、領域任務模塊層:五大領域(人、車、文、物、事)

人:人體(檢測、關鍵點、屬性分類、行爲、識別或者以圖搜人);人臉(檢測、關鍵點、屬性分類、活體行爲、識別);

車:車輛(檢測、關鍵點、品牌細分類、屬性分類、行爲,識別或者以圖搜車);車牌(檢測、樣式分類、文字識別);

文:OCR(圖像預處理、基於圖像分類、全部文字檢測、指定字段定位、文字識別、基於文字內容分類),領域:票據、證件(個人、企業)、證書、車牌、自然場景(內部系統圖像、門牌、站牌、物體等)

物:動物(檢測、關鍵點、品種細分類、屬性分類、行爲、識別或以圖搜動物);物體(檢測、關鍵點、品牌細分類、屬性分類、識別或以圖搜物)

事:特定場景檢測,如煙火、物體遺留、工業視覺等。

四、基礎算法層:三個方面(檢測分割、分類識別、圖像預處理)

檢測分割:定位目標位置、分出目標類別、提取目標關鍵點、從畫面中分割出目標的像素。

分類識別:分類包含三層,大類、屬類、細類,檢測到目標後,目標品牌或者品種細分類、目標屬性分類(顏色、形狀、屬類等)、靜態行爲分類、序列行爲分類;提取目標特徵,結合類別進行以圖搜圖識別。

圖像預處理:圖像增強、去霧、亮度調整、傾斜校正等。

五、深入領域體會:

人臉領域,檢測敏感度(人臉傾斜檢測)、誤檢測率,人臉特徵提取速度,人臉識別準確度。

車輛領域,車牌準確度、敏感度;顏色、類型、品牌準確度;車輛整體特徵與內部局部特徵的提取;車輛行爲分析。

文字領域,圖像質量對文字檢測與識別的影響,圖像預處理,文字檢測的準確度與漏檢率,文字識別,文字語義的分析。

視頻領域,三大難題:(1)誤檢較多。(2)漏檢問題,例如遮擋、逆光條件、傾斜姿態較大等情況無法檢測到。(3)速度問題,檢測算法速度無法完全達到實時性,在100ms以內就不錯。解決速度問題方法:a.視頻關鍵幀或間隔幀;b.圖像壓縮,座標還原;c.耗時模塊在關鍵時刻運行,其他時刻做數據關聯。