吳恩達深度學習筆記12-Course4-Week3【目標檢測】

時間 2020-12-22 標籤深度學習神經網絡吳恩達

目標檢測（Object detection）

圖像識別的三個層次：

目標定位：
需要修改輸出層的結構，和數據集的標籤。輸出層不僅要輸出各類別的概率，還要輸出目標的位置座標。

損失函數和標籤：

Pc：表示是否包含要檢測目標。如果不包含爲0，其它的輸出沒有意義。
根據情況，可以對不同的輸出元素使用不同的損失函數，如：對多類別概率使用交叉熵損失函數；對邊界框值使用平方誤差；對Pc使用 logistic regression 損失函數。

在訓練標籤中添加特徵點，並修改模型的輸出層使其輸出特徵點座標值，從而實現特徵點檢測。

兩個例子：

訓練了一個分類模型。

滑動窗口檢測：

設置一系列尺寸不同的方框，每一種方框都從左向右、從上往下有規律的遍歷圖像，把每一個方框包含的圖片區域輸入不同的分類器，進行分類判別。即可實現目標檢測。

缺點是計算成本太大，方框尺寸的細分程度對定位的精度（粗粒度）影響很大。

卷積層替代全連接層：

利用1×1的卷積替代全連接層。

卷積實現滑動窗口：

不用把圖片進行分割後輸入模型，而是把這張圖片輸入到卷積神經網絡中進行計算，因爲各子圖重疊部分可以共享大量的計算。只需一次前向傳播，就可以同時得到所有子圖的預測值。
輸出層尺寸爲：橫向子圖數 x 縱向子圖數 x 類別數

受邊界框尺寸的細分程度的影響，預測結果和實際目標邊框可能會有偏離。

YOLO 算法很好的解決邊界框不準確的問題，下面會講。

邊界框值的意義：

兩個邊框：實際邊框和預測邊框。
IoU = 邊框交集 / 邊框並集

一個目標可能檢測出多個邊界框，用非極大值抑制解決。

以某一個分類類別爲例：

解決一個格子只能預測一個目標的不足。

訓練：

劃分網格：將圖片分割成n×n個小的圖片。
根據目標的中心點，爲每個目標分配一個grid cell ：中點在哪個grid cell ，就將該對象分配這個格子中，每個目標只分配給一個格子。
數據標籤：對於每個 grid cell 都有一個包含分類和位置的標籤yi=[Pc bx by bh bw c1 c2 c3]，因爲標籤的位置值的大小可以是任意值，相比於滑動窗口寬高比不再固定，因此能得到更精確的邊框。

node: 這裏的yi標籤是沒有Anchor Boxes的，如果有Anchor Boxes應相應增加值。
將 n×n 個格子的標籤合併起來，得到 n×n×8 的矩陣標籤。
訓練模型。

沒有Anchor Boxes：

有Anchor Boxes：

預測：

非極大值抑制：