數據預處理與關聯
時間 2021-01-16
標籤
算法
機器學習
算法基礎
聚類
數據倉庫
python
數據分析
數據預處理與關聯
數據質量的含義
在建立數據倉庫的時候,由於各種原因造成裏數據錯誤的不可避免性,所以便需要對數據進行預處理。
形式
- 數據清理
- 缺失值:忽略、人工填寫、全局變量填充、屬性平均值填充、最可能值填充、所有同類樣本平均值填充。
- 噪聲數據:分箱(按箱平均值、按箱中指、按箱邊界)、聚類、迴歸、計算機和人工檢查結合
- 數據集成
- 實體識別
- 屬性冗餘
- 數據重複
- 數據值衝突的檢測與處理
- 數據交換
- 數據歸約
關聯
管理挖掘
在交易數據、關係數據或其他信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性、或因果結構。
支持度與可信度
Apriori
頻繁項集的任何子集也一定是頻繁項集
頻繁項集
滿足最小支持度的項目集合
第n層向n+1層轉換時,要求前n-1項相同。
提高Apriori效率的方法
提高Apriori效率的方法
- 基於Hash的項集計數
- 減少交易記錄
- 劃分
- 抽樣
- 動態項集計數