[小O地圖-數據] - 地址分詞及對比

【概述】

小O地圖除了提供互聯網地圖數據挖掘、圖表功能外,還提供了地理數據處理功能。本文介紹使用小O地圖進行「地址比較」功能。

物流、快遞公司經常有大量地址數據需要處理,同一個地點由於輸入不規範,通常會記錄不同文字內容,例如:

中國紡織機械和技術進出口有限公司
地址1:北京市朝陽區北京市朝陽區建國路99號中服大廈18層
地址2:北京市朝陽區建國路99號
上述兩個地址分別都是公司地址,但輸入原因導致文字上差異很大,傳統文字比較很難判斷爲同一個地址。

爲解決這個問題,小O地圖新推出了【地址比較】功能,利用地理分詞技術對地址進行解析,判斷地址是否爲同一個地址。

下面簡要介紹步驟:

 

【1】新建任務

新建「地址比較」任務,在任務界面中輸入必要參數,保存新建任務。

 

【2】導入待處理地址(支持兩列地址)

在任務菜單裏選擇導入數據功能,將待處理數據導入任務。待導入的數據通常包括:地址1、地址2、名稱、編號等關鍵字段,地址1和地址2爲待比較的字段,名稱或編號作爲保留字段導入,待處理完導出時關聯原始數據。

使用任務導入數據功能

 

【3】執行任務

導入後,登陸小O地圖,非登錄處理條數有限制。選擇任務欄上的【爬蟲】圖表,啓動任務進行地址分析及比較功能。小O地址比較功能支持離線,處理過程無需聯網,不受地圖KEY的限制

 

【4】導出結果

執行完成後,選擇任務的導出數據功能,將處理結果導出爲CSV格式文件,可在Excel文件中打開查看或做後續處理。

下圖中:地址分詞1、地址分詞2、相似度,三個字段分別爲比較處理結果。

  • 地址1和地址2:爲導入的待處理地址。
  • 地址分詞1:爲地址1的分詞結果,每個意義詞之間用空格分隔,格式:省 市 區 街道 門牌號 樓 樓層 房間號。
  • 地址分詞2:爲地址2的分詞結果。
  • 相似度:爲地址1和地址2的比較結果,TRUE爲相同地址,FALSE爲不相同。

 

一組地址比較結果說明: 

輸入地址

地址1:北京市朝陽區北京市朝陽區建國路99號中服大廈18層
地址2:北京市朝陽區建國路99號

處理結果

分詞1:北京市 朝陽區 北京市 朝陽區 建國路 99號 中服大廈 18層
分詞2:北京市 朝陽區 建國路 99號
相似度:TRUE - 表示同一地址

 

【本文完】