人臉識別、文字識別背後的方法，以及研究的熱點和難點

時間 2021-01-20 標籤文字識別人臉識別

模式識別是什麼？

　　作爲人工智能的一個重要方向，模式識別的主要任務是模擬人的感知能力，如通過視覺和聽覺信息去識別理解環境，又被稱爲「機器感知」或「智能感知」。

　　人們在觀察事物或現象的時候，常常要尋找它與其他事物或現象的不同之處，並根據一定目的把相似、但又細節不同的事物或現象組成一類。字符識別就是一個典型的例子，如數字「4」可以有各種寫法，但都屬於同一類別。人腦具有很強的模式識別和推廣能力，即使對於某種不同寫法的「4」，以前雖未見過，也能把它分到「4」所屬的這一類別。人腦的這種對模式（事物、現象等）進行歸類和分類的能力，就是模式識別，也就是感知能力。

　　隨着20世紀40年代電子計算機出現，50年代人工智能興起，模式識別在20世紀60年代初迅速發展成爲一門新學科。21世紀以來，模式識別又逐漸與深度學習融合。近年來，深度學習和大數據的出現推動了模式識別的快速發展。

　　模式識別是一個智能任務，是人工智能的一種形式。機器學習，包括深度學習是模式識別背後的基本方法，通過學習（訓練）使機器具備識別模式的能力。當前，用深度學習的方法來實現模式識別，能更好的解決問題。

　　深度學習作爲機器學習的一種，是對生物神經網絡結構和信息處理機制的簡單模擬。人工神經網絡早在上世紀40年代就有人研究，50年代和80年代都曾產生較大的影響。近年來，隨着計算能力的提升，可以訓練層數較多的神經網絡（稱爲深度神經網絡）來提升數據擬合和識別能力，有的甚至達到了1000多層。深度學習一般就是指利用深度神經網絡來進行學習。

　　複雜條件下，人臉識別的正確率不到50%

　　得益於深度學習，目前人臉識別和文字識別都是人工智能領域應用比較成功的方向，可以算是模式識別藉助深度學習形成的主要研究成果之一。

　　目前人臉識別、文字識別雖然已應用得較爲廣泛，但還不能算「應用得很好」。人臉識別目前應用得比較成熟的是門禁、通關等領域，原因在於被識別的對象能主動配合，距離攝像頭較近，能拍攝到比較清楚的圖像。很多廠商在用戶配合、光照可控的場景下人臉識別正確率能達到99%以上。但在更加複雜的情況下，如在室外光照不均、距離遠、人臉視角多變情況下，用監控攝像頭進行人臉識別，識別正確率就會明顯降低。

　　目前在計算機前端加入AI模塊，只能起輔助作用，複雜條件下的人臉識別依舊難以達到成熟應用的程度。劉成林表示，室外自然光照條件下，「人臉識別正確率還達不到50%」。

　　文字識別領域也是如此。文字識別目前主要應用在書籍和報紙等的數字化上。報紙、金融機構、保險機構以及快遞行業的的大量單據，都需要電子化後才能方便檢索、管理和進行大數據分析。司法界推行智能法務，辦案的文書（有印刷體，也有手寫體）需要電子化。醫院的病例、教育領域的作業題、考試答卷等，也都有很大的電子化需求。

　　同人臉識別一樣，圖像清晰度和光照等問題也是文字識別的一大難點。平板掃描儀由於光照均勻，對紙質材料掃描得到的圖像清晰度高，文字識別率較高。而拍照圖片的識別率則會降低，室外自然場景圖片中的文字檢測和識別更是當今研究的熱點和難點問題。

人工智能、大數據、雲計算和物聯網的未來發展值得重視，均爲前沿產業，有興趣的朋友，可以查閱多智時代，在此爲你推薦幾篇優質好文：

1.人工智能時代，AI人才都有哪些特徵？

http://www.duozhishidai.com/article-1792-1.html

2.大數據攜手人工智能，高校人才培養面臨新挑戰

http://www.duozhishidai.com/article-7555-1.html

3.人工智能，機器學習和深度學習之間，主要有什麼差異

http://www.duozhishidai.com/article-15858-1.html