http協議學習-基礎概念篇

1. 基礎概念篇

1.1 介紹

  HTTP是Hyper Text Transfer Protocol(超文本傳輸協議)的縮寫。它的發展是萬維網協會(World Wide Web Consortium)和Internet工作小組IETF(Internet Engineering Task Force)合作的結果,(他們)最終發佈了一系列的RFC,RFC 1945定義了HTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定義了今天普遍使用的一個版本——HTTP 1.1。

HTTP協議(HyperText Transfer Protocol,超文本傳輸協議)是用於從WWW服務器傳輸超文本到本地瀏覽器的傳送協議。它可以使瀏覽器更加高效,使網絡傳輸減少。它不僅保證計算機正確快速地傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示(如文本先於圖形)等。

HTTP是一個應用層協議,由請求和響應構成,是一個標準的客戶端服務器模型。HTTP是一個無狀態的協議。

1.2 TCP/IP協議棧中的位置

HTTP協議通常承載於TCP協議之上,有時也承載於TLS或SSL協議層之上,這個時候,就成了我們常說的HTTPS。如下圖所示:
    

默認HTTP的端口號爲80,HTTPS的端口號爲443。

1.3 HTTP的請求響應模型

HTTP協議永遠都是客戶端發起請求,服務器回送響應。見下圖:
   

這樣就限制了使用HTTP協議,無法實現在客戶端沒有發起請求的時候,服務器將消息推送給客戶端。

HTTP協議是一個無狀態的協議,同一個客戶端的這次請求和上次請求是沒有對應關係。

1.4 工作流程

一次HTTP操作稱爲一個事務,其工作過程可分爲四步:

1)首先客戶機與服務器需要建立連接。只要單擊某個超級鏈接,HTTP的工作開始。

2)建立連接後,客戶機發送一個請求給服務器,請求方式的格式爲:統一資源標識符(URL)、協議版本號,後邊是MIME信息包括請求修飾符、客戶機信息和可能的內容。

3)服務器接到請求後,給予相應的響應信息,其格式爲一個狀態行,包括信息的協議版本號、一個成功或錯誤的代碼,後邊是MIME信息包括服務器信息、實體信息和可能的內容。

4)客戶端接收服務器所返回的信息通過瀏覽器顯示在用戶的顯示屏上,然後客戶機與服務器斷開連接。

如果在以上過程中的某一步出現錯誤,那麼產生錯誤的信息將返回到客戶端,有顯示屏輸出。對於用戶來說,這些過程是由HTTP自己完成的,用戶只要用鼠標點擊,等待信息顯示就可以了。

1.5 使用WiresharkTCPhttp

打開Wireshark,選擇工具欄上的「Capture」->「Options」,界面選擇如圖1所示:
                            



圖1 設置Capture選項

一般讀者只需要選擇最上邊的下拉框,選擇合適的Device,而後點擊「Capture Filter」,此處選擇的是「HTTP TCP port(80)」,選擇後點擊上圖的「Start」開始抓包。

圖2 選擇Capture Filter

例如在瀏覽器中打開http://image.baidu.com/,抓包如圖3所示:
    http://www.blogjava.net/images/blogjava_net/amigoxie/40799/o_http%e5%8d%8f%e8%ae%ae%e5%ad%a6%e4%b9%a0-%e6%a6%82%e5%bf%b5-3.jpg

下面是我抓的包對着看


圖3   抓包

在上圖中,可清晰的看到客戶端瀏覽器(ip爲192.168.2.33)與服務器的交互過程:

1)No1:瀏覽器(192.168.2.33)向服務器(220.181.50.118)發出連接請求。此爲TCP三次握手第一步,此時從圖中可以看出,爲SYN,seq:X (x=0)

2)No2:服務器(220.181.50.118)迴應了瀏覽器(192.168.2.33)的請求,並要求確認,此時爲:SYN,ACK,此時seq:y(y爲0),ACK:x+1(爲1)。此爲三次握手的第二步;

3)No3:瀏覽器(192.168.2.33)迴應了服務器(220.181.50.118)的確認,連接成功。爲:ACK,此時seq:x+1(爲1),ACK:y+1(爲1)。此爲三次握手的第三步;

4)No4:瀏覽器(192.168.2.33)發出一個頁面HTTP請求;

5)No5:服務器(220.181.50.118)確認;

6)No6:服務器(220.181.50.118)發送數據;

7)No7:客戶端瀏覽器(192.168.2.33)確認;

8)No14:客戶端(192.168.2.33)發出一個圖片HTTP請求;

9)No15:服務器(220.181.50.118)發送狀態響應碼200 OK

……

1.6 頭域

每個頭域由一個域名,冒號(:)和域值三部分組成。域名是大小寫無關的,域值前可以添加任何數量的空格符,頭域可以被擴展爲多行,在每行開始處,使用至少一個空格或製表符。

在抓包的圖中,No14點開可看到如圖4所示:
  http://www.blogjava.net/images/blogjava_net/amigoxie/40799/o_http%e5%8d%8f%e8%ae%ae%e5%ad%a6%e4%b9%a0-%e6%a6%82%e5%bf%b5-4.jpg

圖4 http請求消息

       迴應的消息如圖5所示:
               

圖5 http狀態響應信息

1.6.1 host頭域

Host頭域指定請求資源的Intenet主機和端口號,必須表示請求url的原始服務器或網關的位置。HTTP/1.1請求必須包含主機頭域,否則系統會以400狀態碼返回。

圖5中host那行爲:
   

1.6.2 Referer頭域

Referer頭域允許客戶端指定請求uri的源資源地址,這可以允許服務器生成回退鏈表,可用來登陸、優化cache等。他也允許廢除的或錯誤的連接由於維護的目的被追蹤。如果請求的uri沒有自己的uri地址,Referer不能被髮送。如果指定的是部分uri地址,則此地址應該是一個相對地址。

在圖4中,Referer行的內容爲:
   

1.6.3 User-Agent頭域

User-Agent頭域的內容包含發出請求的用戶信息。

在圖4中,User-Agent行的內容爲:
  http://www.blogjava.net/images/blogjava_net/amigoxie/40799/o_http%e5%8d%8f%e8%ae%ae%e5%ad%a6%e4%b9%a0-%e6%a6%82%e5%bf%b5-8.jpg

1.6.4 Cache-Control頭域

Cache-Control指定請求和響應遵循的緩存機制。在請求消息或響應消息中設置Cache-Control並不會修改另一個消息處理過程中的緩存處理過程。請求時的緩存指令包括no-cache、no-store、max-age、max-stale、min-fresh、only-if-cached,響應消息中的指令包括public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age。

在圖5中的該頭域爲:
   

1.6.5 Date頭域

Date頭域表示消息發送的時間,時間的描述格式由rfc822定義。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的時間表示世界標準時,換算成本地時間,需要知道用戶所在的時區。

圖5中,該頭域如下圖所示:
   
 

1.7 HTTP的幾個重要概念

1.7.1連接:Connection

一個傳輸層的實際環流,它是建立在兩個相互通訊的應用程序之間。

在http1.1,request和reponse頭中都有可能出現一個connection的頭,此header的含義是當client和server通信時對於長鏈接如何進行處理。

在http1.1中,client和server都是默認對方支持長鏈接的, 如果client使用http1.1協議,但又不希望使用長鏈接,則需要在header中指明connection的值爲close;如果server方也不想支持長鏈接,則在response中也需要明確說明connection的值爲close。不論request還是response的header中包含了值爲close的connection,都表明當前正在使用的tcp鏈接在當天請求處理完畢後會被斷掉。以後client再進行新的請求時就必須創建新的tcp鏈接了。

1.7.2消息:Message

HTTP通訊的基本單位,包括一個結構化的八元組序列並通過連接傳輸。

1.7.3請求:Request

一個從客戶端到服務器的請求信息包括應用於資源的方法、資源的標識符和協議的版本號。

1.7.4響應:Response

一個從服務器返回的信息包括HTTP協議的版本號、請求的狀態(例如「成功」或「沒找到」)和文檔的MIME類型。

1.7.5資源:Resource

由URI標識的網絡數據對象或服務。

1.7.6實體:Entity

數據資源或來自服務資源的回映的一種特殊表示方法,它可能被包圍在一個請求或響應信息中。一個實體包括實體頭信息和實體的本身內容。

1.7.7客戶機:Client

一個爲發送請求目的而建立連接的應用程序。

1.7.8用戶代理:UserAgent

初始化一個請求的客戶機。它們是瀏覽器、編輯器或其它用戶工具。

1.7.9服務器:Server

一個接受連接並對請求返回信息的應用程序。

1.7.10源服務器:Originserver

是一個給定資源可以在其上駐留或被創建的服務器。

1.7.11代理:Proxy

一箇中間程序,它可以充當一個服務器,也可以充當一個客戶機,爲其它客戶機建立請求。請求是通過可能的翻譯在內部或經過傳遞到其它的服務器中。一個代理在發送請求信息之前,必須解釋並且如果可能重寫它。

代理經常作爲通過防火牆的客戶機端的門戶,代理還可以作爲一個幫助應用來通過協議處理沒有被用戶代理完成的請求。

1.7.12網關:Gateway

一個作爲其它服務器中間媒介的服務器。與代理不同的是,網關接受請求就好象對被請求的資源來說它就是源服務器;發出請求的客戶機並沒有意識到它在同網關打交道。

網關經常作爲通過防火牆的服務器端的門戶,網關還可以作爲一個協議翻譯器以便存取那些存儲在非HTTP系統中的資源。

1.7.13通道:Tunnel

是作爲兩個連接中繼的中介程序。一旦激活,通道便被認爲不屬於HTTP通訊,儘管通道可能是被一個HTTP請求初始化的。當被中繼的連接兩端關閉時,通道便消失。當一個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通訊時通道被經常使用。

1.7.14緩存:Cache

反應信息的局域存儲。