聯邦學習 + 髒數據

聯邦學習

髒數據

髒數據的種類及處理方法

在這裏插入圖片描述

數據缺失

缺一些記錄,或者一條記錄裏缺一些值(空值),或者兩者都缺。原因可能有很多種,系統導致的或人爲導致的可能性都存在。如果有空值,爲了不影響分析的準確性,要麼不將空值納入分析範圍,要麼進行補值。前者會減少分析的樣本量,後者需要根據分析的計算邏輯,選擇用平均數、零、或者等比例隨機數等來填補。如果是缺一些記錄,若業務系統中還有這些記錄,則通過系統再次導入,若業務系統也沒有這些記錄了,只能手工補錄或者放棄。

數據重複

相同的記錄出現多條,這種情況相對好處理,去掉重複記錄即可。但是怕就怕不完全重複,比如兩條會員記錄,其餘值都一樣,就是住址不一樣,這就麻煩了,有時間屬性的還能判斷以新值爲準,沒有時間屬性的就無從下手了,只能人工判斷處理。

數據錯誤

數據沒有嚴格按照規範記錄。比如異常值,價格區間明明是100以內,偏偏有價格=200的記錄;比如格式錯誤,日期格式錄成了字符串;比如數據不統一,有的記錄叫北京,有的叫BJ,有的叫beijing。對於異常值,可以通過區間限定來發現並排除;對於格式錯誤,需要從系統級別找原因;對於數據不統一,系統無能爲力,因爲它並不是真正的「錯誤」,系統並不知道BJ和beijing是同一事物,只能人工干預,做一張清洗規則表,給出匹配關係,第一列是原始值,第二列是清洗值,用規則表去關聯原始表,用清洗值做分析,再好一些的通過近似值算法自動發現可能不統一的數據。

數據不可用

數據正確,但不可用。比如地址寫成「北京海淀中關村」,想分析「區」級別的區域時還要把「海淀」拆出來才能用。這種情況最好從源頭解決,即數據治理。事後補救只能通過關鍵詞匹配,且不一定能全部解決。

BI對數據的要求

接下來,我們瞭解一下BI對數據的要求,結合上面髒數據的種類,中間的規避手段就是數據治理。

結構化

數據必須是結構化的。這可能是句廢話,如果數據是大段的文本,比如微博,那就不能用BI做量化的分析,而是用分詞技術做語義的分析,比如常說的輿情分析。語義分析不像BI的量化分析一樣百分百計算準確,而是有概率的,人的語言千變萬化,人自己都不能保證完全理解到位,系統就更不可能了,只能儘可能提高準確率。

規範性

數據足夠規範。這麼說比較含糊,簡單來講就是解決了上述各類髒數據的問題,把所有髒數據洗成「乾淨數據」。

可關聯

如果想將兩個維度/指標做關聯分析,這兩個維度/指標必須能關聯上,要麼在同一張表裏,要麼在兩張有可關聯字段的表裏。