python爬蟲添加

爬蟲的URL:統一資源定位符(網址)

寫一個爬蟲:(1)定位一個目標數據{網站/頁面}

                       (2)分析數據+加載流程(在這裏是分析目標數據對應的URL)

                        (3)下載數據

                        (4)清洗處理到的數據

                          (5)保持數據的持久化

這個例子是爬一個網站中的小說,把這個小說找到並下載下來保存:

在這裏使用requests庫得到實現。

 

.加上re.S表示能匹配到所有字符,如果不加的話,那些空格等非可見字符,換行無法匹配的到
不用加號,可能會增加內存,用%