【轉】刨根究底字符編碼之一——關鍵術語解釋(上)

時間 2021-05-29 標籤 #刨根究底字符編碼

聲明：本系列文章參考了網上的大量資料，除了少部分資料由於未作大量修改(但基本也有少量修改，因爲網上文章隨意性較大，如若不改反而讓人迷糊)而標明瞭出處之外，其餘由於已作了大量改寫，因此沒有再一一說明，在此對原作者表示歉意並感謝。另外，文中圖片部分來自網絡，部分爲本人制作，也不再一一說明。同時，文中若有錯漏，還請直接招呼板磚，不用客氣。

關鍵術語解釋(上)

一、位

位，即比特(Bit)，亦稱二進制位、比特位、位元，指二進制數中的一位，是計算機中信息表示的最小單位。

Bit是Binary digit（二進制數位）的縮寫，由數學家John Wilder Tukey提出，習慣上以小寫字母b表示，如8比特可表示爲8b。

每個比特有0和1兩個可能的值，除了代表數值本身之外，還可代表：

數值的正、負；
兩種狀態，如電燈的開、關，某根導線上電流的有、無，等等；
抽象邏輯上的是、否，或者說真、假。

二、字節

在計算機中，通常都會使用一連串的位(即比特)，稱之爲位串(即比特串，bit string)。很顯然，計算機系統都不會讓你使用任意長度的位串，而是使用某個特定長度的位串。

一些常見的位串長度形式具有約定好的名稱，如，半字節(nibble)代表四個位的組合，字節(byte)代表8個位的組合；還有字(word)、雙字(Double word，簡寫爲Dword)、四字(Quad word，簡寫爲Qword)、十字節(Ten byte，簡寫爲Tbyte)等等。

字節(byte)，又稱爲位元組，音譯爲「拜特」(但很少使用這個譯名)，是計算機中計量存儲容量和傳輸容量的一種基本計量單位，是由連續的、固定數量的位(即比特)所組成的位串(即比特串)，一般由8個位組成，即1 byte = 8 bit。習慣上用大寫的B表示，如3字節可表示爲3B。

現代個人計算機(PC)的存儲器編址，一般是以字節爲單位的，稱之爲按字節編址，因此字節一般也是存儲器的最小存取單位以及處理器的最小尋址單位（也有按位尋址、按字尋址等等，但在個人計算機上應用不普遍，這裏不討論）。

字節作爲存儲器的最小存取單位以及處理器的最小尋址單位這一重要特點，跟字符編碼的關係極爲密切，比如，碼元的單字節與多字節、字節序的大端序與小端序等，都與以字節爲基礎的基本數據類型密切相關(詳見後文介紹）。

習慣上，按照下面的圖來排列一個字節上的各個位的順序，即按照從右到左的順序，依次爲最低位(第0位)到最高位(第7位)：

注意，字節不一定非得是8位，以前也有過4位、6位、7位、12位或18位作爲一個字節的標準，比如IBM 701（36位字長，18位爲一字節）、IBM 702（7位字長，7位爲一字節）、CDC 6600（60位字長，12位爲一字節byte）等。只是現代計算機的事實標準就是用8位來代表一個字節（最終形成這一事實標準除了歷史原因和商業原因之外，最重要的原因應該是由於二進制的特性：2的次方計算更方便快捷）。

正是因爲這個原因，在很多較爲嚴謹的技術規格文獻中，爲了避免產生歧義，更傾向於使用8位組(Octet)而不是字節(Byte)這個術語來強調8比特串。

不過，由於大衆基本上都將字節理解爲8比特的8位組，因此一般文章中如果未作特別說明，基本上都將8位組直接稱之爲字節，或者說，字節一般指的是8位組。

三、字與字長

雖然字節是大多數現代計算機的最小存儲單位和傳輸單位，但並不代表它是計算機可以最高效地處理的數據單位。

一般來說，計算機可以最高效地處理的數據大小，應該與其字的字長相同，這就涉及到了字及字長的概念。

字：在計算機中，一串比特位(即位串、比特串)是作爲一個整體來處理或運算的，這串比特位稱爲一個計算機字，簡稱字。字通常分爲若干個字節。
字長：即字的長度，是指計算機的每個字所包含的位數。字長決定了CPU一次操作所處理的實際比特位數量的多少。字長由CPU對外數據通路的數據總線寬度決定。

計算機處理數據的速率，顯然和它一次能加工的位數以及進行運算的快慢有關。如果一臺計算機的字長是另一臺計算機的兩倍，若兩臺計算機的速度相同，在相同的時間內，前者能做的工作一般是後者的兩倍。因此，字長與計算機的功能和用途有很大的關係，是計算機的一個重要技術指標。

在目前來講，桌面平臺的處理器字長正處於從32位向64位過渡的時期，嵌入式設備基本穩定在32位，而在某些專業領域（如高端顯卡），處理器字長早已經達到了64位乃至更多的128位

四、編碼

編碼(Encode)，是信息從一種形式轉換爲另一種形式的過程，比如用預先規定的方法將字符(文字、數字、符號等)、圖像、聲音或其它對象轉換成規定的電脈衝信號或二進制數字。

五、解碼

解碼(Decode)，爲編碼的逆過程。

六、字符集

字符集(Character Set、Charset)，字面上的理解就是字符的集合，是一個自然語言文字系統支持的所有字符的集合。字符是各種文字和符號的總稱，包括文字、數字、字母、音節、標點符號、圖形符號等。

例如ASCII字符集，定義了128個字符；GB2312字符集定義了7445個字符。而字符集準確地來說，指的是已編號的字符的有序集合(但不一定是連續的，後文有詳細介紹)。

常見字符集有ASCII字符集、ISO 8859系列字符集(ISO 8859-1~8859-16)、GB系列字符集(GB2312、GBK、GB18030)、BIG5字符集、Unicode字符集等。

注：圖中所示微軟在GB2312的基礎上擴展制訂了GBK(Guo-Biao Kuozhan)，然後GBK才成爲「國家標準」(也有說GBK不是國家標準，只是「技術規範指導性文件」)；但網上也有資料說是先有GBK(由全國信息技術標準化技術委員會1995年12月1日製訂)，然後微軟纔在其內部所用的CP936代碼頁中以GBK爲基礎進行了擴展，亦即Windows系統中的CP936代碼頁實際上是GBK編碼方案的一個實現(本人更傾向於這後一種說法)。

七、字符編碼

字符編碼(Character Encoding)，是把字符集中的字符按一定方式編碼爲某指定集合中的某一對象的過程(比如將字符編碼爲由0和1兩個數字所組成的位串模式、由0~9十個數字所組成的自然數序列或電脈衝等)，亦即在字符集與指定集合兩者之間建立一個對應關係(即映射關係)的過程。這是信息處理的一項基礎技術。

因此，通常以字符集來定義字符，以計算機爲基礎的信息處理系統則利用電子元件(即硬件)的不同狀態的組合來表示、存儲和處理字符。

電子元件的不同狀態(一般爲斷開和閉合兩種狀態)的組合能代表數字系統中的數字(比如斷開和閉合代表二進制中的0和1)，因此字符編碼的過程也就可以理解爲將字符轉換映射爲計算機可以接受的二進制數字的過程，這樣才便於字符在計算機中表示、存儲、處理和傳輸(包括在網絡中傳輸)。

常見的例子是將常用的拉丁字母表編碼成摩斯電碼和ASCII碼。其中，ASCII將字母、數字和其它符號進行編號，並且在計算機中直接用7比特的二進制數字來表示這個編號。通常會額外地在最高位(即首位)再增加一個擴充的比特位「0」，以便於計算機系統剛好以1個字節(8比特位)的方式來進行處理、存儲和傳輸。

八、字符編碼模型

字符編碼模型(Character Encoding Model)，是反映字符編碼系統的結構特點和各構成部分相互關係的模型框架。

由於歷史的原因，早期一般認爲字符集和字符編碼是同義詞，並不需要進行嚴格區分。因此在像ASCII這樣的簡單字符集爲代表的傳統字符編碼模型中，這兩個概念的含義幾乎是等同的。

因爲在傳統字符編碼模型中，基本上都是將字符集裏的字符進行編號(字符編號轉化爲二進制數後一般不超過一個字節)，然後該字符編號就是字符的編碼。

但是，由統一碼(Unicode)和通用字符集(UCS)爲代表的現代字符編碼模型則沒有直接採用ASCII這樣的簡單字符集的編碼思路，而是採用了一個全新的編碼思路。

這個全新的編碼思路將字符集與字符編碼的概念更爲細緻地分解爲了以下幾個方面：

有哪些字符；
這些字符的編號是什麼；
這些編號如何編碼成一系列邏輯層面有限大小的數字，即碼元序列；
這些邏輯層面的碼元序列如何轉換爲(即映射爲)物理層面的字節序列(即字節流)；
在某些特殊的傳輸環境中(比如Email中)，再進一步將字節序列進行適應性編碼處理。

這幾個方面作爲一個整體，於是構成了現代字符編碼模型。

現代字符編碼模型之所以要分解爲這麼幾個方面，其核心思想是創建一個能夠用不同方式來編碼的通用字符集。注意這裏的關鍵詞：「不同方式」與「通用」。

這意味着，同一個字符集，可以通用於不同的編碼方式；也就是說，可以採用不同的編碼方式來對同一個字符集進行編碼。字符集與編碼方式之間的關係可以是一對多的關係。

更進一步而言，在傳統字符編碼模型中，字符編碼方式與字符集是緊密結合在一起的；而在現代字符編碼模型中，字符編碼方式與字符集脫鉤了。用軟件工程的專業術語來說，就是將之前緊密耦合在一起的字符編碼方式與字符集解耦了。

因此，爲了正確地表示這個現代字符編碼模型，需要採用更多比「字符集」和「字符編碼」更爲精確的概念術語來描述。

在Unicode Technical Report (UTR統一碼技術報告) #17《UNICODE CHARACTER ENCODING MODEL》中，現代字符編碼模型分爲了5個層次，並引入了更多的概念術語來描述（下面所涉及到的一些全新的概念術語，這裏只做簡介，更詳細的解釋見後文）：

第1層抽象字符表ACR(Abstract Character Repertoire)：明確字符的範圍(即確定支持哪些字符)
第2層編號字符集CCS(Coded Character Set)：用數字編號表示字符(即用數字給抽象字符表ACR中的字符進行編號)
第3層字符編碼方式CEF(Character Encoding Form)：將字符編號編碼爲邏輯上的碼元序列(即邏輯字符編碼)
第4層字符編碼模式CES(Character Encoding Scheme)：將邏輯上的碼元序列映射爲物理上的字節序列(即物理字符編碼)
第5層傳輸編碼語法TES(Transfer Encoding Syntax)：將字節序列作進一步的適應性編碼處理

後面將分層予以簡要介紹。