數據預處理與關聯

數據預處理與關聯

數據質量的含義

  • 正確性
  • 一致性
  • 完整性
  • 可靠性

在建立數據倉庫的時候,由於各種原因造成裏數據錯誤的不可避免性,所以便需要對數據進行預處理。

形式

  • 數據清理
    • 缺失值:忽略、人工填寫、全局變量填充、屬性平均值填充、最可能值填充、所有同類樣本平均值填充。
    • 噪聲數據:分箱(按箱平均值、按箱中指、按箱邊界)、聚類、迴歸、計算機和人工檢查結合
  • 數據集成
    • 實體識別
    • 屬性冗餘
    • 數據重複
    • 數據值衝突的檢測與處理
  • 數據交換
    • 平滑
    • 聚類
    • 數據概化
    • 規範化
    • 屬性構造
  • 數據歸約

關聯

管理挖掘

在交易數據、關係數據或其他信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性、或因果結構。

支持度與可信度

20200601155859059

Apriori

頻繁項集的任何子集也一定是頻繁項集

頻繁項集

滿足最小支持度的項目集合

20200601160053992

第n層向n+1層轉換時,要求前n-1項相同。

提高Apriori效率的方法

  • 基於Hash的項集計數
  • 減少交易記錄
  • 劃分
  • 抽樣

提高Apriori效率的方法

  • 基於Hash的項集計數
  • 減少交易記錄
  • 劃分
  • 抽樣
  • 動態項集計數