爬蟲看視頻學習筆記

看視頻學習筆記:https://www.bilibili.com/video/BV1Yh411o7Sz?p=4

介紹

網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱爲網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

爬蟲合法還是違法?

1.在法律中不被禁止
2.具有違法風險
3.善意爬蟲
4.惡意爬蟲

爬蟲帶來的風險可以體現在如下2方面:

-爬蟲干擾了被訪問網站的正常運營
-爬蟲抓取了收到法律保護的特定類型的數據或信息

如何在使用編寫爬蟲的過程中避免進入局子的厄運呢?

-時常的優化自己的程序,避免干擾被訪問網站的正常運行
-在使用,傳播爬取到的數據時,審查抓取到的內容,如果發現了涉及到用戶隱私商業機密等敏感內容需要及時停止爬取或傳播

Alt

爬蟲在使用場景中的分類

-通用爬蟲:抓取系統重要組成部分。抓取的是一整張頁面數據。
-聚焦爬蟲:是建立在通用爬蟲的基礎之上,抓取的是頁面中特定的局部內容。
-增量式爬蟲:檢測網站中數據更新的情況。只會抓取網站中最新更新出來的數據。

robots.txt協議:

君子協議,防君子不防小人,規定了網站中哪些數據可以被爬蟲爬取哪些數據不可以被爬取。 例如:www.xxxx.com/robots.txt