gen字元編碼介紹fpv

2021-08-26 01:48:30 字數 4293 閱讀 5184

字元編碼介紹 (一)

目錄1.基本概念 1

2.ascii和iso-8859 2

3.國標編碼 2

3.1.gb2312-80 2

3.2.gb13000(gbk) 3

3.3.gb18030-2000 4

4.big-5編碼 5

4.1.big-5簡介 5

4.2.big-5的問題 7

5.ucs和unicode 8

5.1.ucs(iso 10646) 8

5.2.ucs-2、ucs-4和三個語言平面 8

5.3.unicode 9

5.4.utf(utf-32、utf-16和utf-8) 10

5.5.中日韓統一漢字(cjk) 11

(1) 字元

什麼是字元?典型地,是字母。也可以是數字、句點、連字型大小、標點符號和數學符號,對於中文,也可以是漢字。還包括定義行尾和段落等的控制字元(一般不可見)。

(2) 編碼空間和碼點

在設計字符集時,首先要決定所需字元的數目,並確定所需字元的清單。根據字元的數目,可以設定整數值的上限,這個整數範圍稱為編碼空間(code space),其中的乙個特定整數稱為乙個碼點(code point)。然後,為字元清單中的每個字元指定乙個整數值,也就是乙個碼點。

這樣就得到乙個字符集,稱作編碼字符集(coded character set)。

(3) 編碼單元

在計算機系統的實現中,整數以特定大小的單元表示,通常為8位(1位元組),16位,或32位。在字元編碼中,這樣的單元稱為編碼單元(code unit)。

(4) 單位元組字符集、雙位元組字符集、多位元組字符集

在一些常用的編碼中,每個字元只使用乙個位元組表示,稱單位元組字符集(single-byte character set, sbcs)。這些字符集都僅限於256個字元。 雙位元組字符集(double-byte character set, dbcs)用於為東亞書寫系統中所使用成千上萬個表意字元提供足夠空間。

這裡的編碼仍是基於位元組的,不過是兩個位元組一起表示乙個單一的字元。即使在東亞,文字中也會包含小字母表中的字母,如拉丁字母表。這些字母使用單位元組表示的效率會更高。

因此,提出了多位元組字符集(multi-byte character set, mbdc),使用可變數目的位元組來表示字元。多位元組字符集通常與ascii相容,也就是說,在這種編碼中,拉丁字母使用與ascii中相同的位元組來表示。一些不常用的字元可能會使用三個甚至四個位元組編碼。

,用來制訂計算機中每個符號對應的**,這也叫做計算機的內碼(code)。每個ascii碼以1個位元組(byte)儲存,從0到數字127代表不同的常用符號,例如大寫a的ascii碼是65,小寫a則是97。由於ascii位元組的七個位,最高位並不使用,所以後來又將最高的乙個位也編入這套內碼中,成為八個位的延伸ascii(extended ascii)碼,這套內碼加上了許多外文和**等特殊符號,成為目前常用的內碼。

iso-8859對extended ascii做了詳細的定義和規範。

ascii共有32個控制字元和94個可列印字元。

gb2312 碼是中華人民共和國國家標準漢字資訊交換用編碼,全稱《資訊交換用漢字編碼字符集基本集》,標準號為 gb2312-80(gb 是「國標」二字的漢語拼音縮寫),由中華人民共和國國家標準總局發布,2023年5月1日實施。習慣上稱國標碼、gb 碼,或區位碼。它是乙個簡化字漢字的編碼,通行於中國大陸地區。

新加坡等地也使用這一編碼。

gb2312-80 收錄簡化漢字及一般符號、序號、數字、拉丁字母、日文假名、希臘字母、俄文本母、漢語拼音符號、漢語注音字母,共 7445 個圖形字元。其中漢字以外的圖形字元 682 個,漢字 6763 個。

gb2312-80 規定,「對任意乙個圖形字元都採用兩個位元組(byte)表示。每個位元組均採用 gb 1988-80 及 gb 2311-80 中的七位編碼表示。兩個位元組中前面的位元組為第一位元組,後面的位元組為第二位元組。

」習慣上稱第一位元組為「高位元組」,第二位元組為「低位元組」。

gb2312-80 將**表分為 94 個區(section),對應第一位元組;每個區 94 個位(position),對應第二位元組。兩個位元組的值,分別為區號值和位號值各加 32(20h)。

gb2312-80 規定,01~09 區(原規定為 1~9 區,為表示區位碼方便起見,今改稱 01~09 區)為符號、數字區,16~87 區為漢字區。而 10~15 區、88~94 區是有待於「進一步標準化」的「空白位置」區域。但第 10 區推薦與第 3 區的 94 個圖形字元(即 gb 1988-80 中的 94 個圖形字元)相同,字形寬度為其寬度的一半。

gb2312-80 把收錄的漢字分成兩級。第一級漢字是常用漢字,計 3755 個,置於 16~55 區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字,計 3008 個,置於 56~87 區,按部首/筆畫順序排列。字音以普通話審音委員會發表的《普通話異讀詞三次審音總表初稿》(2023年出版)為準,字形以中華人民共和國文化部、中國文字改革委員會公布的《印刷通用漢字字形表》(2023年出版)為準。

為了與系統中基本的ascii字符集區分開,所有漢字編碼的每個位元組的第一位都是1。例如:「啊」字的編碼為0xb0a1。

gb2312的漢字編碼規則為:第乙個位元組的值在0xb0到0xf7之間,第二個位元組的值在0xa0到0xfe之間。

gb2312-80 僅收漢字 6763 個,這大大少於現有漢字,隨著時間推移及漢字文化的不斷延伸推廣,有些原來很少用的字,現在變成了常用字,例如:***的「鎔」字,未收入 gb2312-80。

為了解決這些問題,以及配合 unicode 的實施,全國資訊科技化技術委員會於 1995 年 12 月 1 日《漢字內碼擴充套件規範》,稱為gb13000,也稱gbk。gbk 向下與 gb2312 完全相容,向上支援 iso-10646 國際標準,在前者向後者過渡過程中起到的承上啟下的作用。

gbk是gb2312-80的擴充套件,是向上相容的。它包含了20902個漢字,其編碼範圍是0x8140-0xfefe,剔除高位0x80的字位。其所有字元都可以一對一對映到unicode2.

0。字集 gbk 共收入21886個漢字和圖形符號,包括:

。gb2312 中的全部漢字、非漢字符號。

。big5 中的全部漢字。

。與 iso-10646 相應的國家標準 gb13000 中的其它 cjk 漢字,以上合計 20902 個漢字。

。其它漢字、部首、符號,共計 984 個。

gbk 編碼區分三部分:

。漢字區包括

gbk/2:oxboa1-f7fe, 收錄 gb2312 漢字 6763 個,按原序排列;

gbk/3:ox8140-aofe,收錄 cjk 漢字 6080 個;

gbk/4:oxaa40-feao,收錄 cjk 漢字和增補的漢字 8160 個。

。圖形符號區包括

gbk/1:oxa1a1-a9fe,除 gb2312 的符號外,還增補了其它符號

gbk/5:oxa840-a9ao,擴除非漢字區。

。使用者自定義區

即 gbk 區域中的空白區,使用者可以自己定義字元。

gbk 亦採用雙位元組表示,總體編碼範圍為 8140-fefe 之間,首位元組在 81-fe 之間,尾位元組在 40-fe 之間,剔除 xx7f 一條線。

gb18030是最新標準,而且強制要求中國大陸境內的所有軟體產品都必須支援該標準。gb18030與gb 2312資訊處理交換碼所對應的事實上的內碼標準相容,在字彙上支援gb 13000.1的全部中、日、韓(cjk)統一漢字字元和全部cjk擴充a的字元,並且確定了編碼體系和27484個漢字,形成相容性、擴充套件性、前瞻性兼備的方案。

gb18030採用單位元組、雙位元組和四位元組三種方式對字元編碼。單位元組部分採用gb/t 11383的編碼結構與規則,使用0×00至0×7f碼位(對應於ascii碼的相應碼位)。雙位元組部分,首位元組碼位從0×81至0×fe,尾位元組碼位分別是0×40至0×7e和0×80至0×fe。

四位元組部分採用gb/t 11383未採用的0×30到0×39作為對雙位元組編碼擴充的字尾,這樣擴充的四位元組編碼,其範圍為0×81308130到0×fe39fe39。其中第

一、三個位元組編碼碼位均為0×81至0×fe,第

二、四個位元組編碼碼位均為0×30至0×39。碼位總體結構見下圖。

雙位元組部分收錄內容主要包括gb13000.1全部cjk漢字20902個、有關標點符號、表意文字描述符13個、增補的漢字和部首/構件80個、雙位元組編碼的歐元符號等。

四位元組部分收錄了上述雙位元組字元之外的,包括cjk統一漢字擴充a在內的gb 13000.1中的全部字元。

gb18030編碼空間約為160萬碼位,目前已編碼的字元約2.6萬。隨著我國漢字整理和編碼研究工作的不斷深入,以及國際標準iso/iec 10646的不斷發展,gb18030所收錄的字元將在新版本中增加。

字元編碼筆記

字元編碼筆記 ascii,unicode和utf 8 我們知道,在計算機內部,所有的資訊最終都表示為乙個二進位制的字串。每乙個二進位制位 bit 有0和1兩種狀態,因此八個二進位制位就可以組合出256種狀態,這被稱為乙個位元組 byte 也就是說,乙個位元組一共可以用來表示256種不同的狀態,每乙個...

GEN2產品介紹

採用交流變頻變壓驅動,同時可轉換成休眠狀態,節約能耗。採用向量控制,保證電梯在起動和執行及減速停止的狀態都能平穩快 速響應。採用數字式編碼器和負載稱重來實現閉環控制,保證連續高效控制。採用專用的泡沫填充材料,使控制櫃內部的空間利用率高,通風良好,提高了散熱效率高,同時對精密的電子部件起保護作用。轎廂...

Jsp頁面中的字元編碼方式與亂碼解決方法

3 request.setcharacterencoding utf 8 的作用是設定對客戶端請求進行編碼的方式 該方法用來指定對瀏覽器傳送來的資料進行編碼的編碼方式。4 response.setcharacterencoding utf 8 的作用是指定伺服器響應的編碼方式 伺服器在將資料傳送到瀏...