python爬蟲添加

時間 2021-01-15 標籤添加

爬蟲的URL：統一資源定位符（網址）

寫一個爬蟲：（1）定位一個目標數據{網站/頁面}

（2）分析數據+加載流程（在這裏是分析目標數據對應的URL）

（3）下載數據

（4）清洗處理到的數據

(5)保持數據的持久化

這個例子是爬一個網站中的小說，把這個小說找到並下載下來保存：

在這裏使用requests庫得到實現。

.加上re.S表示能匹配到所有字符，如果不加的話，那些空格等非可見字符，換行無法匹配的到
不用加號，可能會增加內存，用%