計算機視覺知識體系

時間 2020-12-30

一、計算機視覺：

三個層次：系統工程方案層、領域任務模塊層、基礎算法層。

三方面知識點：圖像處理、機器學習、基礎數學與模型。

視頻的三個場景：近距離（手機、智能硬件、PC等），室內中距離（室內，如辦公室、商場、家內；卡口，門口等），室外遠距離（道路、公共場所等）

二、系統工程方案層：WEB圖像結構化；離線SDK圖像結構化；視頻關鍵幀獲取、結構化、序列化行爲分析、結果圖流媒體；

性能上，高併發；高可用；單張時間，儘量在200ms以內，尤其是視頻；準確度。

三、領域任務模塊層：五大領域（人、車、文、物、事）

人：人體（檢測、關鍵點、屬性分類、行爲、識別或者以圖搜人）；人臉（檢測、關鍵點、屬性分類、活體行爲、識別）；

車：車輛（檢測、關鍵點、品牌細分類、屬性分類、行爲，識別或者以圖搜車）；車牌（檢測、樣式分類、文字識別）；

文：OCR（圖像預處理、基於圖像分類、全部文字檢測、指定字段定位、文字識別、基於文字內容分類），領域：票據、證件（個人、企業）、證書、車牌、自然場景（內部系統圖像、門牌、站牌、物體等）

物：動物（檢測、關鍵點、品種細分類、屬性分類、行爲、識別或以圖搜動物）；物體（檢測、關鍵點、品牌細分類、屬性分類、識別或以圖搜物）

事：特定場景檢測，如煙火、物體遺留、工業視覺等。

四、基礎算法層：三個方面（檢測分割、分類識別、圖像預處理）

檢測分割：定位目標位置、分出目標類別、提取目標關鍵點、從畫面中分割出目標的像素。

分類識別：分類包含三層，大類、屬類、細類，檢測到目標後，目標品牌或者品種細分類、目標屬性分類（顏色、形狀、屬類等）、靜態行爲分類、序列行爲分類；提取目標特徵，結合類別進行以圖搜圖識別。

圖像預處理：圖像增強、去霧、亮度調整、傾斜校正等。

五、深入領域體會：

人臉領域，檢測敏感度(人臉傾斜檢測)、誤檢測率，人臉特徵提取速度，人臉識別準確度。

車輛領域，車牌準確度、敏感度；顏色、類型、品牌準確度；車輛整體特徵與內部局部特徵的提取；車輛行爲分析。

文字領域，圖像質量對文字檢測與識別的影響，圖像預處理，文字檢測的準確度與漏檢率，文字識別，文字語義的分析。

視頻領域，三大難題：（1）誤檢較多。（2）漏檢問題，例如遮擋、逆光條件、傾斜姿態較大等情況無法檢測到。（3）速度問題，檢測算法速度無法完全達到實時性，在100ms以內就不錯。解決速度問題方法：a.視頻關鍵幀或間隔幀；b.圖像壓縮，座標還原；c.耗時模塊在關鍵時刻運行，其他時刻做數據關聯。