李哈哈的模式識別筆記【part 1：模式識別系統】

時間 2021-06-12 標籤李哈哈的模式識別筆記模式識別

李哈哈的模式識別筆記【part 1：模式識別系統】

特徵與特徵空間

知識點：
從樣本 sample 中可以提取特徵 feature ，這些特徵共同組成了特徵空間 feature space ，特徵與特徵之間可以通過某種方式度量其相似度 similarity ，這樣，相似度高的特徵空間可以歸類爲一個類 class 。
識別的過程就是根據特徵分類的過程
不同類型的特徵空間：
向量空間，集合空間。

有監督學習和無監督學習

主要在於分類集中的樣本是否添加標籤。
有標籤則爲有監督學習，這種學習的上限是人腦對於該問題的認知處理能力。
無標籤則爲無監督學習，這種學習是機器通過尋找樣本特徵本身之間的相似度，自動劃分類別，達到識別的目的，是更高級的識別手段。
同類樣本間的相似度大於不同類樣本間的相似度

緊緻性和維數災難

相似性如何度量

距離：

正定性
對稱性（距離與計算順序無關）
傳遞性（滿足三角形定理）

有很多種度量距離的方法，要滿足上述三條要求
有很多非距離相似度：

餘弦相似度
皮爾遜相關係數

維數災難

來源：
特徵維數越高 – 樣本集越稀疏 – 緊緻性越差 – 分類器性能越差

解決維數災難方法：
1.增加樣本數量，但是不太可取，數據量，訓練時間都會更加龐大。
2.特徵降維，一種不錯的方法

泛化能力和過擬合

泛化能力：
分類器經過訓練，具有的不僅能區分樣本集中的樣本，還可以正確分類不在樣本集中的新樣本的能力。
過擬合：
由於過分追求分類器對於訓練樣本集中樣本識別的正確性，而導致的分類器泛化能力降低，稱爲分類器訓練過程中的過擬合。

模式識別系統

完成模式識別任務，需要完整的模式識別系統，並完全由計算機完成各模塊工作。

李哈哈的模式識別筆記【part 1：模式識別系統】

李哈哈的模式識別筆記【part 1：模式識別系統】

特徵與特徵空間

有監督學習和無監督學習

緊緻性和維數災難

相似性如何度量

維數災難

泛化能力和過擬合

模式識別系統

模式識別算法體系

手寫數字識別

從模板匹配開始