吳恩達深度學習筆記（四）week3目標檢測

時間 2020-12-22 標籤深度學習神經網絡

目標定位

目標分類、目標定位、目標檢測的區別，目標分類與目標定位處理的圖像只有一個目標，而目標檢測有多個目標，目標分類輸出只有一個，目標定位輸出包括（目標是否存在，目標的座標以及大小），目標檢測需要把圖片中的目標都檢測出來。

關於目標定位的輸出可以如下方式設置

特徵點檢測

當我們希望神經網絡的輸出能告訴我們圖片中被檢測對象的一些特徵時，我們可以通過增加特徵點作爲神經網絡的輸出，如下圖中識別圖片人的表情和人的動作。

基於滑動窗口的目標檢測

滑動窗口目標檢測的原理很簡單，如下圖所示。用一個窗口遍歷整張圖片，之後每次遍歷都可以增大窗口的大小。

卷積的滑動窗口實現

用卷積層代替全連接層

卷積的滑動窗口實現

以上圖中間圖片爲例子，若輸入圖片大小爲 $16 \times 16 \times 3$ 滑動窗口的大小爲 $14 \times 14 \times 3$ ，若使用全連接，則需要進行四次計算，但是，可以看到，中間許多計算是重複的，使用卷積層代替全連接層後則只需一次計算，如圖所示，輸出單元的左上角即爲第一個滑窗的輸出…右下角單元即爲最後一個滑窗。對於下面圖片 $28 \times 28 \times 3$ 也是一個道理，64個輸出單元對應64個滑窗的輸出。