聯邦學習 + 髒數據

時間 2021-01-12

聯邦學習

髒數據

髒數據的種類及處理方法

數據缺失

缺一些記錄，或者一條記錄裏缺一些值（空值），或者兩者都缺。原因可能有很多種，系統導致的或人爲導致的可能性都存在。如果有空值，爲了不影響分析的準確性，要麼不將空值納入分析範圍，要麼進行補值。前者會減少分析的樣本量，後者需要根據分析的計算邏輯，選擇用平均數、零、或者等比例隨機數等來填補。如果是缺一些記錄，若業務系統中還有這些記錄，則通過系統再次導入，若業務系統也沒有這些記錄了，只能手工補錄或者放棄。

數據重複

相同的記錄出現多條，這種情況相對好處理，去掉重複記錄即可。但是怕就怕不完全重複，比如兩條會員記錄，其餘值都一樣，就是住址不一樣，這就麻煩了，有時間屬性的還能判斷以新值爲準，沒有時間屬性的就無從下手了，只能人工判斷處理。

數據錯誤

數據沒有嚴格按照規範記錄。比如異常值，價格區間明明是100以內，偏偏有價格=200的記錄；比如格式錯誤，日期格式錄成了字符串；比如數據不統一，有的記錄叫北京，有的叫BJ，有的叫beijing。對於異常值，可以通過區間限定來發現並排除；對於格式錯誤，需要從系統級別找原因；對於數據不統一，系統無能爲力，因爲它並不是真正的「錯誤」，系統並不知道BJ和beijing是同一事物，只能人工干預，做一張清洗規則表，給出匹配關係，第一列是原始值，第二列是清洗值，用規則表去關聯原始表，用清洗值做分析，再好一些的通過近似值算法自動發現可能不統一的數據。

數據不可用

數據正確，但不可用。比如地址寫成「北京海淀中關村」，想分析「區」級別的區域時還要把「海淀」拆出來才能用。這種情況最好從源頭解決，即數據治理。事後補救只能通過關鍵詞匹配，且不一定能全部解決。

BI對數據的要求

接下來，我們瞭解一下BI對數據的要求，結合上面髒數據的種類，中間的規避手段就是數據治理。

結構化

數據必須是結構化的。這可能是句廢話，如果數據是大段的文本，比如微博，那就不能用BI做量化的分析，而是用分詞技術做語義的分析，比如常說的輿情分析。語義分析不像BI的量化分析一樣百分百計算準確，而是有概率的，人的語言千變萬化，人自己都不能保證完全理解到位，系統就更不可能了，只能儘可能提高準確率。

規範性

數據足夠規範。這麼說比較含糊，簡單來講就是解決了上述各類髒數據的問題，把所有髒數據洗成「乾淨數據」。

可關聯

如果想將兩個維度/指標做關聯分析，這兩個維度/指標必須能關聯上，要麼在同一張表裏，要麼在兩張有可關聯字段的表裏。