什麼樣的爬蟲是非法的？

時間 2021-05-29 標籤 C# .net c#

什麼樣的爬蟲是非法的？
爬蟲不能涉及個人隱私!
如果爬蟲程序採集到公民的姓名、身份證件號碼、通信通訊聯繫方式、住址、賬號密碼、財產狀況、行蹤軌跡等個人信息，並將之用於非法途徑的，則肯定構成非法獲取公民個人信息的違法行爲。
另外，還有下列三種情況，爬蟲有可能違法，嚴重的甚至構成犯罪：
01 非法獲取相關信息
爬蟲程序規避網站經營者設置的反爬蟲措施或者**服務器防抓取措施，非法獲取相關信息，情節嚴重的，有可能構成「非法獲取計算機信息系統數據罪」。
02 干擾網站正常運作
爬蟲程序干擾被訪問的網站或系統正常運營，後果嚴重的，觸犯刑法，構成「破壞計算機信息系統罪」
03 採集公民個人信息
爬蟲採集的信息屬於公民個人信息的，有可能構成非法獲取公民個人信息的違法行爲，情節嚴重的，有可能構成「侵犯公民個人信息罪」。
什麼樣的爬蟲合法？
遵守 Robots協議
Robots 協議能告訴爬蟲，哪些信息是可以爬取，哪些信息不能被爬取，嚴格按照 Robots 協議爬取網站相關信息一般不會出現太大問題。
不能造成對方服務器癱瘓
網絡運營者採取自動化手段訪問收集網站數據，不得妨礙網站正常運行;此類行爲嚴重影響網站運行，如自動化訪問收集流量超過網站日均流量三分之一，網站要求停止自動化訪問收集時，應當停止。
不能非法獲利
惡意利用爬蟲技術抓取數據，攫取不正當競爭的優勢，甚至是牟取不法利益的，則可能觸犯法律。實踐中，非法使用爬蟲技術抓取數據而產生的糾紛其實數量並不少，大多是以不正當競爭爲由提請訴訟。
絕大多數公司和個人使用的爬蟲都是沒有問題的，不必人人自危，只要把握住不要爬取個人信息，不要利用爬蟲非法獲利，不要爬取網站的付費內容，基本上不會有問題。
程序員可以說是世界上最聰明的一羣人，但是在法律之中往往也會產生紕漏，在擁有技術的同時也應在工作中保持謹慎，不要一不小心走上了法律的危險邊緣。

騰訊安全聯合實驗室
已認證的官方帳號

68 人贊同了該回答
先定義一下爬蟲行爲，它是一種「自動化瀏覽網絡」的程序，按照一定規則，自動抓取互聯網信息，比如網頁、各類文檔、圖片、音頻、視頻等，也被稱爲網頁蜘蛛或網絡機器人。一般來說，爬蟲是用來批量獲得網頁上的公開信息的，也就是前端顯示的數據信息。常見的爬蟲手段包含構造合理的 HTTP 請求頭、設置 cookie、降低拜候頻率、隱含輸入字段值、使用代辦署理等。

爬蟲作爲一種計算機技術，一直保持着中立性，在法律上也未被禁止，但是惡意利用爬蟲技術抓取數據，牟取不法利益的，則可能觸犯法律。舉個例子來說，像百度、谷歌這樣的搜索引擎爬蟲，負責採集全網網頁信息，供搜索者查閱，這種就被稱爲善意的「合法爬蟲」。

然而當事情不受控時，爬蟲也變的不再「君子」了。惡意爬蟲會強行突破網站反爬措施，竊取後臺數據、用戶數據等，干擾被訪問網站的正常運營。像搶票軟件這樣的爬蟲，不斷抓取航空公司官網或火車購票平臺信息，導致通過正常操作幾乎無法搶到票，這種爬蟲就被定義爲「惡意爬蟲」。騰訊針對這個還發布了2018上半年安全專題報告《互聯網惡意爬蟲分析：從全景視角看爬蟲與反爬蟲》，其中提到出行類惡意爬蟲流量佔比達到20.87%，火車購票站點成爲爬蟲光顧最頻繁的業務。

爬蟲和反爬蟲作爲「相生相剋」的死對頭，無論爬蟲多厲害，都能被複雜的反爬蟲機制發現，同樣的，無論反爬蟲機制多麼縝密，也能被更高級的網絡爬蟲所攻破，這也被稱爲反反爬蟲。當反爬蟲工程師對爬蟲進行了反殺，爬蟲工程師也不會任人宰割，很快又研究出了各種反對抗技術，比如，通過 User-Agent 來控制拜候、通過 IP 限制來反爬蟲、通過 JS 腳原本避免爬蟲、通過 robots.txt 來限制爬蟲等。

技術本身是無罪的，問題往往出在人無限的慾望上。在使用爬蟲時，爬蟲開發者的道德自持和企業經營者的良知纔是避免觸碰法律底線的根本所在。

一是嚴格遵守網站設置的robots協議；

二是在規避反爬蟲措施的同時，需要優化自己的代碼，避免干擾被訪問網站的正常運行；

三是在設置抓取策略時，應注意編碼抓取視頻、音樂等可能構成作品的數據，或者針對某些特定網站批量抓取其中的用戶生成內容；

四是在使用、傳播抓取到的信息時，應審查所抓取的內容，如發現屬於用戶的個人信息、隱私或者他人的商業祕密的，應及時停止並刪除。

關於如何保護數據隱私，一是對操作系統進行及時更新，堵塞操作系統的安全漏洞，提高操作系統的防禦能力，防患於未然；

二是在網絡終端系統中安裝殺毒軟件，提高防禦能力，保證網絡終端系統能夠抵禦病毒攻擊，提高網絡終端系統的安全性；

三是結合數據庫的使用特點，對數據庫中的信息採取加密技術，防止數據庫中的數據被盜用，提高數據的安全性；

四是部署SSL證書，使用HTTPS加密傳輸協議，防止傳輸數據被他人竊取、篡改。