/view/25412.htm
UTF-8是UNICODE的壹種變長字符編碼又稱萬國碼,由Ken Thompson於1992年創建。現在已經標準化為RFC 3629。UTF-8用1到6個字節編碼UNICODE字符。用在網頁上可以同壹頁面顯示中文簡體繁體及其它語言(如日文,韓文)
UTF-8編碼的優點:
UTF-8編碼可以通過屏蔽位和移位操作快速讀寫。字符串比較時strcmp()和wcscmp()的返回結果相同,因此使排序變得更加容易。字節FF和FE在UTF-8編碼中永遠不會出現,因此他們可以用來表明UTF-16或UTF-32文本(見BOM) UTF-8 是字節順序無關的。它的字節順序在所有系統中都是壹樣的,因此它實際上並不需要BOM。
UTF-8編碼的缺點:
妳無法從UNICODE字符數判斷出UTF-8文本的字節數,因為UTF-8是壹種變長編碼它需要用2個字節編碼那些用擴展ASCII字符集只需1個字節的字符 ISO Latin-1 是UNICODE的子集,但不是UTF-8的子集 8位字符的UTF-8編碼會被email網關過濾,因為internet信息最初設計為7位ASCII碼。因此產生了UTF-7編碼。 UTF-8 在它的表示中使用值100xxxxx的幾率超過50%, 而現存的實現如ISO 2022, 4873, 6429, 和8859系統,會把它錯認為是C1 控制碼。因此產生了UTF-7.5編碼。
GB2312碼是中華人民***和國國家漢字信息交換用編碼,全稱《信息交換用漢字編碼字符集——基本集》,由國家標準總局發布,1981年5月1日實施,通行於大陸。新加坡等地也使用此編碼。
GB 2312或GB 2312-80是壹個簡體中文字符集的中國國家標準,全稱為《信息交換用漢字編碼字符集·基本集》,又稱為GB0,由中國國家標準總局發布,1981年5月1日實施。GB2312編碼通行於中國大陸;新加坡等地也采用此編碼。中國大陸幾乎所有的中文系統和國際化的軟件都支持GB 2312。
GB 2312標準***收錄6763個漢字,其中壹級漢字3755個,二級漢字3008個;同時,GB 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西裏爾字母在內的682個全角字符。
GB 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。
分區表示
GB 2312中對所收漢字進行了“分區”處理,每區含有94個漢字/符號。這種表示方式也稱為區位碼。
01-09區為特殊符號。
16-55區為壹級漢字,按拼音排序。
56-87區為二級漢字,按部首/筆畫排序。
10-15區及88-94區則未有編碼。
舉例來說,“啊”字是GB2312之中的第壹個漢字,它的區位碼就是1601。
信息交換用漢字編碼字符集GB2312
/view/25492.htm