數據通訊的步驟:
層次 | 功能 |
---|---|
應用層 | 用戶的應用程序和網絡之間的接口 |
表示層 | 協商數據交換格式,相當公司中簡報老闆、替老闆寫信的助理 |
會話層 | 允許用戶使用簡單易記的名稱建立連接,相當於公司中收寄信、寫信封與拆信封的祕書 |
傳輸層 | 提供終端到終端的可靠連接,相當於公司中跑郵局的送信職員 |
網絡層 | 使用權數據路由經過大型網絡,相當於郵局中的排序工人 |
數據鏈路層 | 決定訪問網絡介質的方式。在此層將數據分幀,並處理流控制。本層指定拓撲結構並提供硬件尋址,相當於郵局中的裝拆箱工人。 |
物理層 | 將數據轉換爲可通過物理介質傳送的電子信號 相當於郵局中的搬運工人。 |
層次 | 功能 |
---|---|
應用層 | 應用程序間溝通 |
傳輸層 | 主要是提供應用程序間的通信 |
網絡層 | 主要定義了IP地址格式,從而能夠使得不同應用類型的數據在Internet上通暢地傳輸 |
網絡接口層 | 負責接收IP數據包並通過網絡發送之,或者從網絡上接收物理幀,抽出IP數據報,交給IP層 |
編程語言 | 做爬蟲特點 |
---|---|
PHP | 對多線程、異步支持不太好 |
Java | 代碼量大,代碼笨重 |
C/C++ | 代碼量大,難以編寫 |
Python | 支持模塊多、代碼簡潔、開發效率高(scrapy框架) |
爬蟲分類 | 特點 |
---|---|
通用網絡爬蟲 | 將互聯網上的網頁下載到本地數據庫,形成一個備份 |
聚焦網絡爬蟲 | 根據既定的目標有選擇地抓取某一特定主題內容 |
增量式網絡爬蟲 | 對下載網頁採取增量式的更新和只爬行新產生的或者已經發生變化的網頁爬蟲 |
深層網絡爬蟲 | 指獲取那些大部分內容不能通過靜態連接獲取、隱藏在搜索表單後的,只有用戶提交一些關鍵詞才能獲取的web網頁爬蟲 列如:用戶登錄註冊才能訪問的網頁 |
開始學爬蟲了,Come on!