爬蟲的URL:統一資源定位符(網址)
寫一個爬蟲:(1)定位一個目標數據{網站/頁面}
(2)分析數據+加載流程(在這裏是分析目標數據對應的URL)
(3)下載數據
(4)清洗處理到的數據
(5)保持數據的持久化
這個例子是爬一個網站中的小說,把這個小說找到並下載下來保存:
在這裏使用requests庫得到實現。
.加上re.S表示能匹配到所有字符,如果不加的話,那些空格等非可見字符,換行無法匹配的到 不用加號,可能會增加內存,用%