李哈哈的模式識別筆記【part 1:模式識別系統】

李哈哈的模式識別筆記【part 1:模式識別系統】

特徵與特徵空間

知識點:
從樣本 sample 中可以提取特徵 feature ,這些特徵共同組成了特徵空間 feature space ,特徵與特徵之間可以通過某種方式度量其相似度 similarity ,這樣,相似度高的特徵空間可以歸類爲一個類 class 。
識別的過程就是根據特徵分類的過程
不同類型的特徵空間:
向量空間,集合空間。
在這裏插入圖片描述

有監督學習和無監督學習

主要在於分類集中的樣本是否添加標籤。
有標籤則爲有監督學習,這種學習的上限是人腦對於該問題的認知處理能力。
無標籤則爲無監督學習,這種學習是機器通過尋找樣本特徵本身之間的相似度,自動劃分類別,達到識別的目的,是更高級的識別手段。
同類樣本間的相似度大於不同類樣本間的相似度
在這裏插入圖片描述
在這裏插入圖片描述

緊緻性和維數災難

相似性如何度量

距離:

  1. 正定性
  2. 對稱性(距離與計算順序無關)
  3. 傳遞性(滿足三角形定理)

有很多種度量距離的方法,要滿足上述三條要求
有很多非距離相似度:

  • 餘弦相似度
  • 皮爾遜相關係數

維數災難

來源:
特徵維數越高 – 樣本集越稀疏 – 緊緻性越差 – 分類器性能越差
在這裏插入圖片描述
解決維數災難方法:
1.增加樣本數量,但是不太可取,數據量,訓練時間都會更加龐大。
2.特徵降維,一種不錯的方法

泛化能力和過擬合

泛化能力:
分類器經過訓練,具有的不僅能區分樣本集中的樣本,還可以正確分類不在樣本集中的新樣本的能力。
過擬合:
由於過分追求分類器對於訓練樣本集中樣本識別的正確性,而導致的分類器泛化能力降低,稱爲分類器訓練過程中的過擬合
在這裏插入圖片描述

模式識別系統

完成模式識別任務,需要完整的模式識別系統,並完全由計算機完成各模塊工作。
在這裏插入圖片描述

模式識別算法體系

體系結構圖如下:
在這裏插入圖片描述

手寫數字識別

在這裏插入圖片描述

從模板匹配開始

識別效果一般。