第三课时:文字数据在计算机中的表示
[课时目标]
了解中文和英文在计算机中的表示方法
了解区位码、国标码以及机内码的相互转换
[文字数据和字符集]
文字数据是无法直接在计算机中表示和存储的。
通常为了方便处理文字,便需要对文字规定一定的表示方法,这些表示方法的集合也叫字符集,目前较为常见的字符集有:ASCII、UTF-8、UTF-16、GBK、GB2312等。
[西文字符的表示 — ASCII码]
西文字符通常使用一个数字代替一个符号,共支持128种字符,称之为ASCII码。

ASCII码称之为美国标准信息交换码,较为重要的几个码值有:
空格 32
'0' 48
'A' 65
'a' 97
[中文表示的编码]
中文表示、存储以及处理的方案远比西文要复杂的多,需要经历输入、转换的过程,通常可根据过程的不同划分为三种不同的编码,即输入码、国标码以及机内码。
输入码:用于输入汉字的编码,分为音码(按拼音输入)、形码(按笔画或者形状输入)以及音形码(二者结合)。


国标码:在还未存入计算机之前中文文字的中间状态。
机内码:在计算机当中存储、表示和处理文字的编码,同一个文字在不同的CPU中会产生不同的机内码。
[区位码]
区位码是一种特殊的输入法,将大量的文字存入表格之中,一行为区,一列为位,各有编号,区号和位号能准确确定一个汉字。如下图:

例如图中,“希”字在第47区,第03位。
[区位码和国标码的转换]
区位码转换为国标码的公式为:
国标码 = 区位码 + 2020H
Tips:
此处区位码的区号和位号均为16进制数。
2020H是指区号和位号各加20H
[例]已知某文字的区位码为5041H,求其国标码
国标码 = 5041H + 2020H
= (50H + 20H) , (41H + 20H)
= 70H ,61H
= 7061H
[国标码向机内码的转换]
国标码转机内码的公式为:
机内码 = 国标码 + 8080H = 区位码 + A0A0H
此处注意点与上同,不再赘述。
[例]已知某文字的区位码为5041H,求其机内码
国标码 = 5041H + A0A0H
= (50H + A0H),(41H + A0H)
= F0H ,E1H
= F0E1H

