隱藏在攝像頭裏的AI

時間 2019-12-08 標籤隱藏攝像頭裏 ai

本文來自馭勢科技人工智能組組長潘爭在LiveVideoStackCon 2017大會上的分享，並由LiveVideoStack整理而成。潘爭回顧了AI在圖像識別領域的歷史與難點，以及在安防和自動駕駛方面的實現思路。算法

文 / 潘爭安全

整理 / LiveVideoStack網絡

谷歌的人工智能平臺Alpha Go讓AI再次進入了普通老百姓的視野，我記得2016年3月時Alpha Go第一輪測試結果就令你們十分震驚。隨着技術的進步，AI的能力必定會愈來愈強。咱們能夠看到近兩年AI在深度學習方面的技術進展成果顯著。今天我爲你們準備了一些最近與攝像頭相關的人工智能研究成果。架構

概覽：框架

攝像頭裏的數據寶藏
機器學習
視覺識別的挑戰與應對ide
AI+安防實踐函數
AI+自動駕駛實踐性能

今天個人分享內容主要分爲如下幾點：第一是咱們生活中的這些攝像頭所採集的數據中隱藏了哪些值得挖掘的寶藏，以及若是要去挖掘有價值的數據須要面臨的一些挑戰與應對的方法；第二是我在安防與自動駕駛領域應用AI的一些實踐經驗。學習

1. 攝像頭裏的數據寶藏

你們能夠設想一下本身周圍有多少觀察咱們的攝像頭，有咱們隨身攜帶的手機、平板電腦等移動設備的先後攝像頭；若是你開車，你的車至少會有一兩個攝像頭；當你走在大街上或商場、超市裏時，隨便一擡頭都能看到一個監控攝像頭。能夠說咱們的生活佈滿了攝像頭，其中記錄了咱們生活一點一滴的數據便具備了非凡價值。例如商場的管理人員可經過攝像頭判斷此時商場裏有多少顧客，大體掌握顧客的男女比例，年齡層次，從而掌握潛在消費羣體的實時動向；也能夠經過攝像頭搜尋常常前來消費的顧客，並在正確的位置精準投放相應廣告吸引其消費從而增長銷售額。而在安防領域，警察可經過安裝在街道上的攝像頭監控預防羣體事件的發生，迅速識別定位逃犯並掌握其逃跑路徑從而實現快速抓捕。還有在自動駕駛領域，經過汽車上集成的多部攝像頭獲取的數據能夠告訴自動駕駛系統周圍汽車的數量、相對速度與距離等，也可識別車道線位置，推斷汽車是否偏離車道，並在須要變道或剎車時及時做出反應，保障自動駕駛系統的正常運行。從攝像頭中發掘有價值的數據並加以有效利用，不管對安防領域仍是自動駕駛領域而言都很是重要。固然數據挖掘與處理的過程也充滿挑戰。

2. 視覺識別問題中的挑戰與應對

例如上面的這張圖，也許一個三歲的小孩也可以識別出圖片中的物體是一隻貓，而對計算機來講，這張圖可能只是一系列的數字。若是咱們想經過這一系列的數字識別出這是一隻貓則可能會遇到很是多的挑戰。

挑戰1：視角變化

而隨着視角的變化，例如上圖的同一張人臉會呈現出很是明顯的差別

挑戰2：光影變化

光影的變化一樣相當重要，因爲光源位置的不一樣，一樣的幾隻企鵝，有多是全黑的，也有多是全白的，這對視覺識別也很是具備挑戰性。

挑戰3：尺度變化

姚明與小孩雖存在明顯的尺度差別，但都屬於人類。視覺識別系統必須可以對不一樣尺度的物體準確進行歸類。

挑戰4：形狀變化

處於不一樣形態的同一物體一樣是識別的難點，例如不管「大黃蜂」處於汽車形態仍是機器人形態，視覺識別系統都應將其識別成「大黃蜂」。

挑戰5：遮擋變化

更大的挑戰在於不少視覺識別都須要面臨的遮擋變化，咱們必須保證在複雜環境的遮擋下仍可以準確識別圖片中的一匹馬與騎馬的人。

挑戰6：背景干擾

還須要解決的是背景干擾問題，咱們能夠輕易識別出上圖中的人與金錢豹，但對計算機而言，由於目標主體的紋理與背景幾乎難以分別，可以準確識別出一樣結果的難度很是大。

挑戰7：類內差距

最後一項挑戰是類內差距，雖然都是椅子，但設計與用處的不一樣使其外觀差距很是大，而咱們但願視覺識別算法都能將其識別爲一張椅子。

如何有效解決視覺識別領域上述這麼多挑戰？

2.1 深度學習——卷積神經網絡

若是讓你們完成這樣一個Python函數，輸入一張圖片的數據，輸出咱們指望獲得的圖片類型，該如何完成？其實這個問題已經困擾了計算機視覺科學家大概半個多世紀的時間，從計算機被髮明開始你們就在思考這個問題，直到最近幾年纔有了一個比較正式的回答，就是咱們常常提到的深度學習，具體來講是一個多層卷積神經網絡。上圖展現了這樣一個卷積神經網絡的例子，在卷積神經網絡的左邊輸入的是一張圖像的數據，右邊輸出的是咱們期待的圖像所屬類別。在這個網絡中咱們能夠看到每個藍色的方框都表明一次卷積操做，之因此叫它多層卷積神經網絡就是由於一張圖片從輸入原始數據到輸出對應類別須要通過屢次卷積操做，像這個網絡須要通過22層卷積才能準確識別出圖像所屬的類別屬性。每一個卷積都會有一個卷積核，這個卷積核就是咱們但願從海量數據中學習到的參數，學習不一樣的任務能夠得出不一樣的參數。而這個學習訓練的算法通常是根據具體任務經過使用反向傳播算法進行精準識別並去學習出每個卷積核的對應參數來。那麼這樣一個卷積神經網絡能夠達到怎樣的圖像識別性能呢？

這個問題也是在近幾年纔有了一個比較好的回答，我給你們舉個例子： ImageNet比賽是一項解決通用圖像識別分類問題的比賽，經過統計計算機識別並歸類數據集中一千類圖片的錯誤率來衡量其視覺識別能力的高低。人若是參加ImageNet，錯誤率會保持在5.1%左右。而在深度學習面世以前的2011年，ImageNet冠軍的錯誤率可達到25.8%，但在2012深度學習面世之後，ImageNet冠軍的錯誤率一降低到了16.4%，而且從那以後一直處於直線降低的狀態，直到2015年的正確率已經降低到比人還低的3.57%。在人工智能的圍棋還未超越人類的2015年，計算機在通用圖像識別領域的性能已經超越了人類，能達到這樣的成績，卷積神經網絡功不可沒。

2.2 進一步發展的卷積神經網絡

上圖是近幾年咱們經常使用的深度卷積神經網絡的大概結構，深度卷積神經網絡最先是由Yann LeCun在1989年提出，當時是一個僅有5層的卷積神經網絡，如今Yann LeCun在Facebook的人工智能研究院做爲主任繼續推動卷積神經網絡的研究。最初卷積神經網絡的層數很是的淺，僅有5層，而且那時只能完成一些手寫體方面的簡單識別任務。在那以後人們對卷積神經網絡的研究持續了二十多年，一直到2012年，人們才提出可以勝任像ImageNet這樣複雜識別任務的更先進的卷積神經網絡。AlexNet在2012年藉助這樣一個8層的卷積神經網絡網絡成爲當年ImageNet比賽的冠軍，從那以後，又有不少不一樣的卷積神經網絡被研發出來，總的趨勢是愈來愈深。例如2013年達到19層的VGG、2014年Google提出的達到22層的GoogLeNet，而2015年微軟亞洲研究院研製的多達152層的卷積神經網絡ResNet其圖像識別性能已超越人類。從卷積神經網絡的發展咱們不難看出，網絡越深其表達能力越強，卷積神經網絡所能表達的數學函數複雜程度就會越高，這就使其在處理複雜圖象識別任務時可以達到更高的正確率。固然隨着網絡加深增多的是卷積盒的參數，對應計算量與深度學習的訓練難度也會增大，接下來我將講述近幾年你們在研究深度學習時面臨的三項核心問題以及提出的一些可以解決相應問題的算法思想。

2.3 視覺問題的深度學習方法

以前提到的ImageNet比賽是一個通用的模擬圖像識別與分類的比賽，並不解決實際問題。與圍棋相似，並不能爲咱們創造任何經濟價值。若是想應用於實際中的視覺識別情景則還需解決如下幾大類問題：語義分割、物體檢測、對比驗證。

2.3.1 語義分割

圖像分類問題須要識別一張圖片並告訴咱們這張圖片中物體的類別，簡而言之就是輸入一張圖片，給出一個類別。語義分割就是但願針對一張圖片中的每一個像素都輸出一個類別，其中有不少解決方案，例如這幾年提出的FCN、Enet、PSPNet或ICnet等等。這些方法背後的基本框架都是全卷積網絡。這裏的全卷積網絡與剛纔提到的分類網絡惟一不一樣之處在於全卷積網絡並不僅輸出一個分類標籤，而是輸出多個分類結果，每一個分類結果都對應了圖像中的一個像素的類型值。訓練時會對每一個像素分類的結果進行偏差計算，並用反向傳播算法得出訓練後的網絡參數。

2.3.2 物體檢測

初期的物體檢測準確率很低，沒法知足應用需求。近幾年隨着Faster RCNN、RFCN、SSD等方法的出現，物體檢測的準確率已經基本達到實際應用的需求。以上這些基於深度學習的物體檢測方法一樣使用全卷積網絡來預測出物體的每個位置，在推斷出此區域是否屬於某個物體的同時對物體的類別、位置與大小進行預測。與以前的預測相比，物體檢測增長了位置與大小兩個預測維度。若是對這樣的預測的結果還不滿意的話也可像Faster RCNN這樣將相應區域的圖片或特性分離出並再過一次網絡進行第二次的分類與迴歸，這種對目標的多重計算有助於提高輸出結果的準確性。目前最好的物體檢測方法就是相似於Faster RCNN這樣分兩階段的方法，若是你們想嘗試這種物體檢測方面的應用也可今後方法開始。

2.3.3 對比驗證

對比驗證簡單來講就是對兩個圖像進行對比並推斷這兩個圖像是否爲同一個類別，最簡單的應用就是人臉識別。例如藉助計算機將手機拍攝的一張人像照片與一張身份證上的照片進行對比並推斷是否爲同一我的。這項技術在淘寶、支付寶等平臺都有應用，也可用與跟蹤和ReID等方面。這裏的跟蹤是指用一個攝像頭拍攝連續多幀照片後，識別並鎖定第一幀裏的某個物體，而後跟蹤後續幀中這個物體的移動軌跡。若是這些用於跟蹤物體的圖片來自不一樣的攝像頭，那麼這就變成了一個ReID問題。ReID在安防領域是一個很是重要的應用，例如一個小偷在A攝像頭下做案時被拍攝圖像後，我但願根據這張圖像在其餘攝像頭中搜尋並鎖定這個小偷，以此來推測其做案移動的路徑，毫無疑問這會爲警方的刑偵破案提供很大幫助。不管是人臉識別仍是RelD，其技術背景都是Siamese network。它的原理很簡單，就是將兩張圖片通過同一個網絡提取特徵。在訓練此網絡時咱們但願儘可能縮小同一張人臉照片輸出結果的差距，擴大不一樣人臉照片輸出結果的差距。經過這種訓練方式可以讓網絡學習到如何分析比對同一張人臉具備什麼類似的特徵，不一樣的人臉具備什麼不一樣的特徵。在人臉識別方面，計算機更早地超過人類。大概2013年在LFW人臉驗證比賽上，人類對於臉部的識別驗證準確率在97%左右，而計算機已可達到99%以上，這無疑是深度學習在人臉驗證領域的突破。

以前我與你們分享的都是一些籠統的方法，接下來我會結合過去我在安防與自動駕駛領域的工做經驗爲你們介紹一些研究成果，

3. AI+安防

首先說一下安防，在安防領域有如下幾類你們比較關心的問題。第一個問題是經過攝像頭確認目標的位置也就是「人在哪裏？」。知道人在哪裏以後就須要明確目標屬性「你是誰？」、「你從哪裏來？」、「你要到哪裏去？」這些看似充滿哲學意味的問題一樣也是安防領域最重要的三個問題。回答這三個問題以後咱們還但願確認目標的行爲特徵「人作了什麼？」這對安防領域而言一樣重要。接下來讓咱們看一下，如何解決這幾個問題。

3.1 「人在哪裏？」

首先咱們須要確認「人在哪裏？」。安防領域中最基礎的即是對物體的檢測，例如上圖展現了一個在安防場景裏進行人物檢測的實例。咱們使用相似Faster RCNN技術對這樣一個安防場景中人的上半身進行檢測，檢測上半身主要是由於人最重要的特徵集中在上半身，而下半身常常會被其餘物體遮擋，同理上半身的特徵暴露概率更高，更容易進行特徵識別。由於傳統Faster RCNN方法在識別速度上處於劣勢，因此咱們對Faster RCNN進行了一些簡化，使其在識別速度上有了比較大的提高，而且可以容許咱們僅藉助移動端GPU就可實現實時檢測的效果。

爲了驗證此算法的運行極限，咱們進行了一個規模更大的實驗。此實驗場景爲北京站前廣場，這裏人流密集，比通常的監控場景更復雜，咱們想經過此實驗測試咱們算法可同時檢測人數的極限。通過測試咱們發現即使在如此大的場景之下算法依舊可以較穩定地檢測出場景中中絕大多數行人，漏檢與誤檢概率也維持在較低水平。咱們在確認目標位置以後須要進一步確認目標的移動軌跡與行爲動機。

3.2 「人從哪裏來，到哪裏去？」

上圖是一個較典型的物體跟蹤實驗情景，咱們讓這些羣衆演員隨機遊走，經過深度學習方法對每一個人的運動軌跡進行跟蹤。從左上角的圖中咱們能夠看到每一個人身上都會有一個圈，若是圈的顏色沒有變化說明對這我的保持正常的跟蹤狀態。能夠看到利用這種檢測跟蹤技術可穩定地跟蹤大部分目標。藉助攝像頭輸出的深度圖，咱們還能夠如右下角圖片展現的那樣得出每一個人在三維空間中的位置並變換視角進行監控，或是如在左下角圖片展現的那樣獲得一個俯視的運行軌跡，這樣就可得知每一個人在監控畫面當中的位置動態變化軌跡。

3.3 「這些人是誰？」

跟蹤上每個人以後，更重要的是確認跟蹤目標的身份。安防領域的終極目標就是但願明確監控畫面中每一個人的身份信息，而能從一我的的圖像中獲取到的最明顯的身份特徵信息就是人臉。我開發了這樣一項技術——遠距離人臉識別。在上圖展現的大場景中咱們能夠看到其中大部分人離攝像頭的距離至少有30米～40米，在這樣一個遠距離監控場景下人臉採到的圖像質量會出現明顯的損失，例如人臉的位姿變化。咱們但願藉助在這樣一個不佳的監控場景中獲取的人臉圖片與人臉特徵庫中的證件信息進行比對並獲取目標人物的身份信息，其原理也是剛纔提到的Siamese Network——經過使用幾千萬甚至上億數據進行訓練，得出一個較爲穩定的人臉特徵並在人臉庫中檢索出符合此特徵的目標人物身份信息，從而識別目標身份。

3.4 「這些人在幹什麼？」

安防領域最後關心的是目標的行爲特徵「這我的在幹什麼？」其本質是明確每一個人的各個關節的運動狀態，咱們稱之爲POSE識別。雖然POSE識別看上去並不屬於檢測、跟蹤或是語義分割的範疇，但咱們也可將其歸結爲一種物體檢測，只不過咱們檢測的再也不是人的運動軌跡，而是檢測每一個人的脖子、肩膀、肘關節等部分的相對位置，這與以前的物體檢測相比更爲複雜。近幾年，藉助深度學習技術，POSE識別取得了很是明顯的進步。微軟Xbox 360上配備的kinect即是經過可感知深度的攝像頭對一兩我的進行POSE識別而如今隨着技術的發展，即使僅經過普通的RGB攝像頭也能實現對整個廣場上多個目標同時進行POSE識別，這也是近幾年深度學習的一個重要突破。經過這種實時POSE識別咱們不光可識別每一個人在廣場中的位置、運動軌跡，還可識別每一個人的動做以及動做背後隱藏的人與人之間的關係，從而在監控畫面中獲取更多有價值的信息。

4. AI+自動駕駛

以前咱們講述了AI在安防監控領域的一些應用，接下來我會介紹一些最近正在嘗試的有關自動駕駛方面的實踐。其實在自動駕駛領域也須要不少攝像頭數據，咱們會在自動駕駛汽車中安裝多個攝像頭。傳統汽車領域車身上的一兩個攝像頭主要用來拍攝汽車周圍的環境圖像，而在自動駕駛領域則須要更多的攝像頭完成更復雜的工做。例如特斯拉已經在其還沒法徹底實現自動駕駛的汽車上安裝了7個攝像頭；若是想要實現真正的自動駕駛，爲了保證畫面的無死角須要安裝更多攝像頭，那麼攝像頭採集的數據可以幫助咱們作什麼呢？不少信息須要經過攝像頭獲取，例如車道線、先後左右有無行人與車輛等障礙物、紅綠燈識別、可行駛區域識別等都是來源於經過攝像捕獲的數據。

4.1 車道線識別

圖片中展現的車道線識別，也許你們曾在一些行車記錄儀或ADOS中見過。但有別於傳統對單車道線的簡單標記，咱們如今更關注的是多車道線識別。之前的車道線識別僅是左右各一根，而咱們但願可以識別一整條馬路上的多根車道線。這種對於多根車道線的識別，一方面可爲處於自動駕駛狀態下的車輛提供變道、駛出高速等路徑更改操做必要的數據，另外一方面可以協助汽車進行橫向定位。若是可以同時識別出全部車道，自動駕駛系統就能確認汽車當前在第幾條車道上，從而計算下一步須要切換到哪一條車道，這對自動駕駛而言十分重要。檢測車道線可歸結爲對物體的檢測，你們能夠將每條車道線理解爲一個物體。固然在面臨彎曲的車道線時還須要估計每條車道曲線的參數，須要更多的處理分析以更好地模擬車道線的變化。

4.2 行人與車輛檢測

除了車道線識別，另一個比較重要的問題是對行人與車輛的實時檢測。這是安全性上十分重要的兩項指標，須要知曉周圍車輛的位置、距離和速度才能獲取決策所須要的參數。上圖是咱們在北京四環這樣相對簡單的封閉道路環境下進行的車輛檢測實驗。檢測車輛的算法與咱們以前提到的在安防領域裏檢測人的算法相似，都是基於Faster RCNN架構，但自動駕駛領域對計算能力的要求更高。由於汽車的安全永遠擺在第一位，而且通過每一步計算更新出的行駛策略必須符合道路交通安全法規，而咱們平常生活中使用的GPU遠沒法達到如此嚴格的性能要求。所以咱們須要花不少的時間將神經網絡儘量精簡與壓縮以實現更快的運行速度，從而可以在有限的硬件性能下知足對行人與車輛的實時監測要求。

咱們還在更復雜的道路環境下測試了檢測算法。上圖是一我的車混行的道路環境，難點一主要在於大量汽車形成的遮擋問題，難點二主要在於身着各色服飾的羣衆，這種道路環境不管是對人仍是對車輛的檢測而言都是一個很是大的挑戰。固然在如此複雜的環境下咱們現有的算法仍會出現一些錯誤，這還須要咱們積累更多的數據與改進方案以實現進一步的提高，讓咱們的自動駕駛系統可以經過視覺層面上的識別保證在如此複雜人車混行道路環境下駕駛過程的安全性。

4.3 紅綠燈識別

視覺識別還可幫助咱們識別紅綠燈的狀態，一樣是一個比較標準的物體檢測問題。但紅綠燈檢測與以前提到的行人與車輛檢測相比，困難之處在於紅綠燈在圖像中是一個很是小的物體，越小的物體檢測難度越大。爲了解決此問題咱們提升了標準檢測方法輸出的圖像分辨率，提高最後一層深度學習網絡對細小的物體的檢測敏感度。這樣即可幫助咱們對紅綠燈等小物體實現更準確的檢測。上圖是咱們在五道口附近一個道路環境比較複雜的路段測試紅綠燈檢測算法的準確性，能夠看到雖然這段路上有不少紅綠燈，但基本上大部分的紅綠燈均可以被準確檢測到。固然紅綠燈不必定須要經過視覺識別進行檢測，有時咱們能夠結合一些地圖信息進一步提升紅綠燈檢測結果的準確性，儘量下降依賴純視覺圖像信息進行紅綠燈檢測時出現錯誤的機率。

4.4 可行駛區域識別

對自動駕駛系統而言最後一個關鍵問題是明確汽車的可行駛區域。所謂可行使區域就是理論上路面沒有障礙物，容許汽車安全經過的區域，那麼肯定汽車可行駛區域的關鍵點就是肯定路面上的障礙物，那麼如何識別道路上的障礙物呢？障礙物的種類有不少，故咱們經過另外一種思路來解決這個問題，也就是對可行使區域進行分割，這就使命題變爲一個比較標準的圖像語義分割問題。上圖是咱們在北京五環路上進行的測試，能夠看到道路中的紫色部分爲可行駛區域。在這種封閉環路上測試此技術的效果每每是比較穩定的，但距離將其推廣並應用於相似人車混行等複雜道路環境還很遠，須要積累更多數據才能進一步提升精度知足道路安全駕駛的需求。同時除了識別可行使區域，你們能夠看到圖像中的高亮部分展現的是車道線、交通標識等必要的目標識別。這些識別在爲自動駕駛安全穩定運行提供必要的駕駛輔助信息的同時也爲深度學習在準確預測可行使區域和監測車輛行人等方面提供了必要的參考數據。這便意味着這樣一個多任務網絡須要利用有限的計算資源更加迅速地完成多個駕駛行爲監測任務，從而在出現行駛突發情況時更快做出反應與干預，保證人車安全。而在深度學習領域，同時訓練兩個任務相對於單獨訓練一個任務所達成的效果更好。

以上是我想與你們分享的有關AI在攝像頭中應用的所有內容，謝謝你們。

Q&A

Q1：您在分享中提到可用手機等移動設備實現基於AI視覺的物體檢測，那麼關於這方面的一些具體性能參數是什麼？

A：須要強調的是，倒不是說在手機上完成相似的任務，咱們但願將相關計算設備儘量集成到攝像頭中，所以開始咱們使用了可裝配在移動設備上的Tegra系列芯片進行測試。咱們但願將其做爲運算單元嵌入各類各樣的物聯網設備中。

Q2：若是須要移植則涉及到模型的精簡與優化，那麼通過移植、精簡與優化後的系統在識別上是否發生明顯的變化？是否形成影響？

A：影響確實存在，例如剛纔提到的152層網絡確定沒法穩定運行在移動設備上。當須要移植時咱們會對網絡的層數與寬度也就是卷積核的數量進行壓縮，從而保證網絡在移動端的穩定運行，咱們但願可以在移動設備芯片上實現實時檢測的效果。同時咱們會積累大量的數據對一個小的卷積神經網絡進行重複訓練，從而使得它實現更好的效果。根據個人經驗，在一些特定場景下並沒必要須使用大型網絡，例如我只須要在某個場景下對一我的進行檢測或是僅僅在手機端對一張人臉進行識別，這些場景並不須要像應對ImageNet那樣複雜的網絡，不少狀況下僅需一個很小的網絡就可解決不少問題。固然不管網絡大小，其設計依舊遵循以前提到的基本單元，如Google Net採用的Inception結構，ResNet採用的殘差網絡做爲基本單元，這些基本單元在結構上都遵循經典網絡的設計。

Q3：您以前介紹對人的檢測與追蹤，那麼如何實現檢測與追蹤的良好結合？您在實際應用中結合兩種方法時遇到了哪些問題？如何解決？

A：實際上咱們是將這兩步分開運行。咱們先對每一幀或隔幾幀進行一次檢測從而保證準確檢測出幀中新出現的人，然後再檢測以後的幾幀或對比驗證每幀之間的差別從而實現目標跟蹤。由於在不少單一目標視覺跟蹤情景下只須要對第一幀進行檢測，後面依靠跟蹤算法便可肯定後續每一幀當中目標的位置。固然這種方法只能用於理想環境下跟蹤單一目標，在實際應用中更多的仍是對多個目標的跟蹤。根據咱們已有的經驗，若是可以實現快速檢測就可將跟蹤問題轉化爲對比問題，也就是隻需將第一幀中的m我的與第二幀中的n我的分離出來並將二者進行對比驗證，從而實現目標跟蹤。

Q4：那檢測是徹底遵循等間隔運行仍是根據追蹤反饋的執行度進行適配？

A：這個問題在於計算量。檢測算法每每會帶來較大計算量，若是計算能力足夠那麼固然須要對儘量多的幀進行檢測，相對跟蹤而言，檢測更加劇要。跟蹤只是聯繫檢測的兩幀，其計算量較小。咱們的設計原則是在用盡計算性能以前進行儘量多的檢測工做。

Q5：在不一樣的任務當中汽車所須要的信息顯然是不同的。對物體進行分類與識別時須要採用必定深度的語義信息，而當面對如車道線檢測等信息時多是比較淺的信息就可達到要求。那麼面對不一樣的任務，設計網絡時有什麼原則能夠分享一下嗎？什麼樣的任務適合什麼樣的網路？

A：我想說的是，即使拿了一個經典的網絡咱們也不太肯定它的性能偏向。咱們會選擇其中的一些包括GPU的各類不一樣的網絡設計，包括經典的網絡與壓縮以後的小網絡，比較他們之間速度與精確程度上的差別，最後取綜合性能比較好的網絡。即使如此咱們始終須要強大的計算能力以及足夠數量的GPU來知足性能需求。在這裏沒有必須遵照的原則，至少目前尚未這樣一個答案。

Q6：前深度學習時代有人用圖象處理或簡單的機器視覺也可實現諸如人行橫道檢測的功能，那麼您有關於將這些傳統方法與深度學習相結合的想法嗎？

A：深度學習只是完成了其中一步，以車道線爲例，識別一種車道線的方案是先進行分割然後再進行車道線擬合。分割這一步可用深度學習來完成，可是分割完以後的車道線成爲一個個像素，將屬於車道線的像素從新統計合成的過程屬於傳統機器學習的範疇。固然也有不少的傳統跟蹤算法能夠實現更快的識別效果，咱們會針對不一樣情景選擇最佳的結合方案達成最高效的監測識別方式。