小O地圖除了提供互聯網地圖數據挖掘、圖表功能外,還提供了地理數據處理功能。本文介紹使用小O地圖進行「地址比較」功能。
物流、快遞公司經常有大量地址數據需要處理,同一個地點由於輸入不規範,通常會記錄不同文字內容,例如:
中國紡織機械和技術進出口有限公司
地址1:北京市朝陽區北京市朝陽區建國路99號中服大廈18層
地址2:北京市朝陽區建國路99號
上述兩個地址分別都是公司地址,但輸入原因導致文字上差異很大,傳統文字比較很難判斷爲同一個地址。
爲解決這個問題,小O地圖新推出了【地址比較】功能,利用地理分詞技術對地址進行解析,判斷地址是否爲同一個地址。
下面簡要介紹步驟:
新建「地址比較」任務,在任務界面中輸入必要參數,保存新建任務。
在任務菜單裏選擇導入數據功能,將待處理數據導入任務。待導入的數據通常包括:地址1、地址2、名稱、編號等關鍵字段,地址1和地址2爲待比較的字段,名稱或編號作爲保留字段導入,待處理完導出時關聯原始數據。
使用任務導入數據功能
導入後,登陸小O地圖,非登錄處理條數有限制。選擇任務欄上的【爬蟲】圖表,啓動任務進行地址分析及比較功能。小O地址比較功能支持離線,處理過程無需聯網,不受地圖KEY的限制。
執行完成後,選擇任務的導出數據功能,將處理結果導出爲CSV格式文件,可在Excel文件中打開查看或做後續處理。
下圖中:地址分詞1、地址分詞2、相似度,三個字段分別爲比較處理結果。
一組地址比較結果說明:
輸入地址:
地址1:北京市朝陽區北京市朝陽區建國路99號中服大廈18層
地址2:北京市朝陽區建國路99號處理結果:
分詞1:北京市 朝陽區 北京市 朝陽區 建國路 99號 中服大廈 18層
分詞2:北京市 朝陽區 建國路 99號
相似度:TRUE - 表示同一地址