返回首页
当前位置: 主页 > 网络编程 > Asp实例教程 >

计算机编码详解

时间:2010-10-31 00:12来源:知行网www.zhixing123.cn 编辑:麦田守望者

最小的单元是位(bit),接着是字节(Byte),一个字节=8位,英语表示是1 byte=8 bits 。机器语言的单位Byte。接着是KB,1 KB=1024 Byte; 接着是MB,1 MB=1024 KB; 接着是GB,1 GB=1024 MB ;接着是TB, 1TB=1024 GB。
接着是进制:二进制0和1,8进制0-7, 十进制不用说,10进制0-9后面是A,B,C,D,E,F 他们关系如下:
Binary Octal Decimal Hex
0 0 0 0
1 1 1 1
10 2 2 2
11 3 3 3
100 4 4 4
101 5 5 5
110 6 6 6
111 7 7 7
1000 10 8 8
1001 11 9 9
1010 12 10 A
1011 13 11 B
1100 14 12 C
1101 15 13 D
1110 16 14 E
1111 17 15 F

接着是上层建筑字符:

字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

ASCII 字符集
ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统,它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。

包含内容:

控制字符:回车键、退格、换行键等。

可显示字符:英文大小写字符、阿拉伯数字和西文符号

ASCII扩展字符集扩展:表格符号、计算符号、希腊字母和特殊的拉丁符号。

  第0~32号及第127号(共34个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;

  第33~126号(共94个)是字符,其中第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。

  注意:在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。

DEC HEX CHAR CODE C 程序(转义)
0 00   NUL (’\0’)
1 01   SOH  
2 02   STX  
3 03   ETX  
4 04   EOT  
5 05   ENQ  
6 06   ACK  
7 07   BEL (’\a’)
8 08   BS (’\b’)
9 09   HT (’\t’)
10 0A   LF (’\n’)
11 0B   VT (’\v’)
12 0C   FF (’\f’)
13 0D   CR (’\r’)
14 0E   SO  
15 0F   SI  
16 10   DLE  
17 11   DC1  
18 12   DC2  
19 13   DC1  
20 14   DC4  
21 15   NAK  
22 16   SYN  
23 17   ETB  
24 18   CAN  
25 19   EM  
26 1A   SUB  
27 1B   ESC  
28 1C   FS  
29 1D   GS  
30 1E   RS  
31 1F   US  
32 20 (space,空格)    
33 21 !    
34 22 "    
35 23 #    
36 24 $    
37 25 %    
38 26 &    
39 27 ’    
40 28 (    
41 29 )    
42 2A *    
43 2B +    
44 2C ,    
45 2D -    
46 2E .    
47 2F /    
48 30 0    
49 31 1    
50 32 2    
51 33 3    
52 34 4    
53 35 5    
54 36 6    
55 37 7    
56 38 8    
57 39 9    
58 3A :    
59 3B ;    
60 3C <    
61 3D =    
62 3E >    
63 3F ?    
64 40 @    
65 41 A    
66 42 B    
67 43 C    
68 44 D    
69 45 E    
70 46 F    
71 47 G    
72 48 H    
73 49 I    
74 4A J    
75 4B K    
76 4C L    
77 4D M    
78 4E N    
79 4F O    
80 50 P    
81 51 Q    
82 52 R    
83 53 S    
84 54 T    
85 55 U    
86 56 V    
87 57 W    
88 58 X    
89 59 Y    
90 5A Z    
91 5B [    
92 5C \   (’\\’)
93 5D ]    
94 5E ^    
95 5F _    
96 60 `    
97 61 a    
98 62 b    
99 63 c    
100 64 d    
101 65 e    
102 66 f    
103 67 g    
104 68 h    
105 69 i    
106 6A j    
107 6B k    
108 6C l    
109 6D m    
110 6E n    
111 6F o    
112 70 p    
113 71 q    
114 72 r    
115 73 s    
116 74 t    
117 75 u    
118 76 v    
119 77 w    
120 78 x    
121 79 y    
122 7A z    
123 7B {    
124 7C |    
125 7D }    
126 7E ~    
127 7F   DEL

GB2312 字符集
GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。

它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。

GBK字符集
GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。GBK字符集主要扩展了繁体中文字的支持。

BIG5 字符集

BIG5又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。

Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。

尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假字母。

例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。

GB18030 字符集

GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。GB 18030字符集标准的出台经过广泛参与和论证,来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。

GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。

顶一下
(0)
0%
踩一下
(0)
0%
标签(Tag):计算机编码
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片