爬蟲教程2---Python爬蟲加代理「僞裝」

上面一篇說到爬蟲必須加上「隱身衣」(變換user-agent,proxyIP),「風火輪」(多線程加速)以及「復活藥水」(被封后自動重啓續爬)

根據博主的經驗,不僞裝IP地址和useragent,開多線程完全是開玩笑,所以博主按照先加「隱身衣」,再加「復活藥水」,最後加「風火輪」的步驟構建爬蟲。

本篇介紹如何加「隱身衣」。

依然使用www.baidu.com。

想要爬取一個網站,首先要了解網站服務器的請求響應會返回什麼,然後在它返回的內容中找到想要的東西。因爲爬蟲原理是模仿瀏覽器行爲,因此,有必要先研究瀏覽器與網站服務器的交互。打開瀏覽器的開發者工具,選擇Network選項卡,即查看瀏覽器與網站服務器的網絡數據包流動情況。(火狐瀏覽器相應的有firebug,需要降低火狐的版本到40左右及以下(=。=記不清了,具體請百度),高版本的火狐不支持firebug,貌似firebug開發組和火狐不合作了??、、、(摔!))