幾種編碼格式

2023-01-26 06:18:02 字數 2020 閱讀 6643

1、ansi編碼

不同的國家和地區制定了不同的標準,由此產生了 gb2312, big5, jis 等各自的編碼標準。這些使用2 個位元組來代表乙個字元的各種漢字延伸編碼方式,稱為 ansi 編碼。在簡體中文系統下,ansi 編碼代表 gb2312 編碼,在日文作業系統下,ansi 編碼代表 jis 編碼。

對於ansi編碼而言,0x00~0x7f之間的字元,依舊是1個位元組代表1個字元。這一點是asni編碼與unicode編碼之間最大也最明顯的區別。比如「a君是第131號」,在ansi編碼中,占用12個位元組,而在unicode編碼中,占用16個位元組。

因為a和1、3、1這4個字元,在ansi編碼中只各佔1個位元組,而在unicode編碼中,是需要各佔2個位元組的。

2、cp936編碼

cp936是微軟自己發布的用在檔案系統中的編碼方式。而bg2312是中國國家標準。

目前windows的核心已經採用unicode編碼,這樣在核心上可以支援全世界所有的語言文字。但是由於現有的大量程式和文件都採用了某種特定語言的編碼,例如gbk,windows不可能不支援現有的編碼,而全部改用unicode。windows 使用**頁(code page)來適應各個國家和地區。

code page可以被理解為前面提到的內碼。gbk對應的code page是 cp936。

3、gb2312編碼

gb2312(2023年)一共收錄了7445個字元,包括6763個漢字和 682個其它符號。漢字區的內碼範圍高位元組從b0-f7,低位元組從a1-fe,占用的碼位是72*94=6768。其中有5個空位是d7fa-d7fe。

ascii、gb2312、gbk到gb18030的編碼方法是向下相容的。

2023年的gb18030是取代gbk1.0的正式國家標準。該標準收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。

4、unicode編碼

unicode也是一種字元編碼方法,不過它是由國際組織設計,可以容納全世界所有語言文字的編碼方案。 unicode的學名是 "universal multiple-octet coded character set",簡稱為ucs。 ucs可以看作是"unicode character set"的縮寫。

utf-8、utf-7、utf-16都是被廣泛接受的方案。utf-8的乙個特別的好處是它與iso- 8859-1完全相容。utf是 「ucs transformat

ion format」的縮寫。

utf-8以位元組為編碼單元,沒有位元組序的問題。utf-16以兩個位元組為編碼單元,在解釋乙個utf-16文字前,首先要弄清楚每個編碼單元的位元組序。

utf-8:utf意為通用字集轉換格式(universal character set transformation format),utf-8是unicode的8位元格式。如果使用只能在同類位元組內支援8個位元的重要資料一類的舊式傳輸**,可選擇utf-8格式。

unicode規範中推薦的標記位元組順序的方法是bom。

在ucs編碼中有乙個叫做"zero width no- break space"的字元,它的編碼是feff。而fffe在ucs中是不存在的字元,所以不應該出現在實際傳輸中。ucs規範建議我們在傳輸位元組流前,先傳輸字元"zero width no-break space"。

這樣如果接收者收到feff,就表明這個位元組流是big-endian的;如果收到fffe,就表明這個位元組流是little-endian的。因此字元"zero width no- break space"又被稱作bom。utf-8不需要bom來表明位元組順序,但可以用bom來表明編碼方式。

字元"zero width no-break space"的utf-8編碼是ef bb bf(讀者可以用我們前面介紹的編碼方法驗證一下)。所以如果接收者收到以ef bb bf開頭的位元組流,就知道這是utf-8編碼了。

windows就是使用bom來標記文字檔案的編碼方式的。

ansi:        無格式定義;

unicode:       前兩個位元組為fffe;

unicode big endian: 前兩位元組為feff;

utf-8:        前兩位元組為efbb;

幾種講話材料的文體格式

五是表彰號召型。專指在表彰 慶功會議上的講話。這一型別的講話材料結構比較簡單。首先,要交待背景材料,比如,在抗洪搶險營模表彰會議上的講話,開始就要交待清楚什麼時間 什麼地點發生了洪災,洪災到了什麼程度,帶來了多大損失,部隊是奉哪一級的命令,執行任務時間有多長,取得了多大成績等等 然後,再介紹被表彰者...

公司公文的排版格式及常用的幾種公文格式 改

公文格式 1 公文排版格式 集團公司內下行文標題 集團各部門 各分子公司 正文附件 1 2 年月日主題詞 抄送 印發機關共印份 公文格式 2 公文排版格式 對外上行文 平行文 發文機關標識上邊緣至版心上邊緣為80mm 標題 正文正文 附件 1 2 年月日主題詞 抄送 印發機關共印份 公文格式 3 公...

02物料編碼案例 電纜存貨編碼規則

存貨編碼規則 產成品分類 1.力纜 截面分類 芯數分類 型號分類 特性分類 小類 產品類 2.高壓電纜 截面分類 芯數分類 型號分類 特性分類 小類 產品類 3.分支電纜 截面分類 型號分類 特性分類 小類 產品類 4.分支接頭 截面分類 型號分類 特性分類 小類 產品類 5.分支電纜配件 代號分類...