手機淘寶APP關鍵詞搜索採集方案

自2018年12月中旬之後,淘寶升級了反爬蟲策略,淘寶Web版必須要登錄之後才能使用搜索功能(直接搜索會被重定向到登錄界面,登錄之後才能看到搜索結果)。然而登錄之後如果訪問稍微頻繁,就會出現滑塊驗證碼(如下圖所示),通過驗證碼之後(滑塊驗證碼可以使用pyautogui自動處理),可以繼續訪問。
在這裏插入圖片描述
但如果持續訪問頻繁,就會出現一種無法處理的滑塊驗證碼(如下圖所示,持續提示「哎呀,出錯了,點擊刷新再來一次」),拖動之後會提示「」。由於這種機制的存在,導致採集效率低,一個淘寶賬號每日僅能採集到5w條左右的商品,並且穩定性較差。

在這裏插入圖片描述
技術人員通過對比發現,手機淘寶APP版本並沒有這種限制,不需要登錄即可持續搜索,並且一個關鍵詞能夠看到的搜索結果條數也是4400條(和Web版一致)。但是淘寶APP同樣有嚴密的防護策略,常規的抓包手段無法攔截到APP和服務端的交互數據,而且APK也做了防護,反編譯後只能看到有限的代碼。

通過技術人員的攻關,終於實現了突破,目前已可以有效攔截到手機淘寶APP的應答數據,能夠拿到搜索結果返回的完整JSON數據,從而可以提取到和淘寶Web版一樣的信息(例如 item_id, title, price, location, sold, commentCount, category, isB2c等等)。

如下所示,爲截取的一個手機淘寶APP搜索返回的一個商品的JSON示例數據。

在這裏插入圖片描述
完整的採集過程分爲兩步:

(1)通過adb模擬操作手機淘寶APP執行搜索和上滑翻頁操作。
(2)攔截手機淘寶APP的應答數據,從中提取想要的信息

如下圖所示,爲採集過程的一個截圖(左側是實時抓取到的數據,右側是安卓模擬器窗口):

在這裏插入圖片描述
再附上一個完整的手機淘寶APP關鍵詞搜索返回的JSON數據:taobao_app_searching_sample.json

該方案有以下優點:
(1)無需淘寶賬號登錄,節省淘寶賬號購買開支,不擔心被封號;
(2)穩定可靠,採用淘寶手機APP數據源,不會輕易改版;
(3) 採集速度快,實測單臺設備(可以採用模擬器,也可以採用真機),日均搜索採集量約20-30萬條商品;
(4)IP限制弱;

瞭解更多分析及數據抓取可查看:
http://cloud.yisurvey.com:9081//html/37be8794-b79e-4511-9d0a-81f082bac606.html

本文轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請聯繫我們刪除處理。

特別說明:本文旨在技術交流,請勿將涉及的技術用於非法用途,否則一切後果自負。如果您覺得我們侵犯了您的合法權益,請聯繫我們予以處理。