Python爬蟲經常爬不到數據?你可以看一下這篇文章

近期,通過做了一些小的項目,覺得對於Python爬蟲有了一定的瞭解,於是,就對於Python爬蟲爬取數據做了一個小小的總結,希望大家喜歡!

小編整理了一些Python學習內容,我把它推薦給你!Python資料+Qun  69286 - 7294 就能獲得全部資料!免費學習視頻+項目源碼,並且在學習的過程中,還可以參與我們的訓練營學習!

1.最簡單的Python爬蟲

最簡單的Python爬蟲莫過於直接使用urllib.request.urlopen(url=某網站)或者requests.get(url=某網站)

例如:爬取漫客棧裏面的漫畫

代碼和運行結果:

這是最簡單也是最基礎的Python爬蟲.

 

2.需要添加headers的Python爬蟲

有的網址爬取數據需要添加User-Sgent、Cookie等字段信息,這個時候我們需要添加一個請求頭,也就是一個字典,User-Sgent、Cookie等字段信息就放這裏面。 如:運用Python爬蟲下載表情包

沒加請求頭

加上請求頭:

是不是加與沒加,就有很大的區別.

3.所爬取的數據在NetWork裏面

有個時候,我們所爬取的數據添加請求頭之後,也爬取不到,這個時候,我們就需要想一想NetWork,下面有XHR和JS,也許所需要數據就在這兩個其中的一個裏面。 如:爬取王者榮耀英雄皮膚

如果用上面第二種方法,可以發現,就算添加請求頭,也訪問不到數據,我們看一下網頁源代碼,發現,這些數據根本就不在源代碼中,所以這樣肯定爬不到數據。

我們點擊電腦鍵盤F12,然後再點擊NetWork下面的JS,按F5刷新,可以發現,這些圖片的下載鏈接在JS下面的一個json文件裏。

小編整理了一些Python學習內容,我把它推薦給你!Python資料+Qun  69286 - 7294 就能獲得全部資料!免費學習視頻+項目源碼,並且在學習的過程中,還可以參與我們的訓練營學習!

4.動態加載的數據

動態加載的,像網易雲音樂,雖然我們也可以在NetWork下面找到相應的數據,但是這是一個post請求,比較複雜,我們可以使用selenium模塊,這個過程我就不講解了。

 

5.總結

上面講解的這些,我都有關於它們的文章,讀者可以自行找到並閱讀。

也許我還是一個Python爬蟲小白吧!講解的深度還不夠,希望大家諒解,在以後的日子裏,我會加油學的。如果讀者覺得我的這篇文章對於你有所幫助,希望大家給我點一個小小的贊,謝謝!