知识点1:了解数据与信息的概念,及学习它们的区别
1. 数据的概念
数据是指数字、文字、字母、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,票房和电视收视率、教师学生的档案记录、快递信息、股票行情、高铁动车的时刻表及票价等都是数据。
在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
2. 信息的概念
经过加工处理后用于人们决策或具体应用的数据称作信息。例如,人们通过对火车时刻表和票价的分析,作为购票的依据。
信息是人们用以对客观世界直接进行描述、可以在人们之间进行传递的知识或事实。
3. 联系与区别
信息与数据既有联系,又有区别。数据是信息的载体,而信息是数据的具体表现形式,信息是加载于数据之上,对数据作具有含义的解释。
数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的。计算机可以处理的信息源有:字符、数字和各种数学符号、图形、图像、音频、视频和动画等。这些可以识别的记号或符号都称为数据,它们的各种组合用来表达客观世界中的各种信息。
【小贴士】
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。请您上网搜索 “大数据”,了解它的概念、特征、应用、意义和趋势。
知识点2:计算机中数据的单位
计算机中的信息用二进制表示,常用的单位有位、字节和字。
位(bit,又称比特):简写为b,计算机中最小的数据存储单位。一个二进制位只能表示0或1两种状态。
字节(Byte):简记为B,计算机中表示存储容量的基本单位。一个字节由8位二进制数组成。一般情况下,一个ASCII码占用一个字节,一个汉字国际码占用两个字节。此外还有KB(千字节)、MB(兆字节)、GB(吉字节)、TB(太字节)、PB(拍字节)等,它们之间的换算关系如下:
1Byte=8bit 1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB
字(Word)与字长:字是指在计算机中作为一个整体被存取、传送、处理的一组二进制数。一个字的位数(即字长)是计算机系统结构中的一个重要特性。字长是由CPU的类型所决定,不同的计算机系统的字长是不同的,常见的有8位、16位、32位、64位等。字长是计算机性能的一个重要指标,字长越长,计算机一次处理的信息位就越多,精度就越高,目前主流微机是64位机。
注意字与字长的区别,字是单位,而字长是指标。
知识点3:各进制数间的相互转换
1.数制(计数制)的概念
数制是人们利用符号来计数的科学方法,有非进位数制和进位数制。如罗马数字就是非进位数制。进位数制指的是按进位方式计数的数制,如十进制、二进制和十六进制。
进位计数制的两个基本要素:
基数——指在某种进位计数制中,每个数位上所能使用的数码的个数。例如,二进制的基数为2;十进制的基数为10。
位权——数制中某一位上的1所表示数值的大小(所处位置的价值)。例如,十进制的365,3的位权是102=100,6的位权是101=10,5的位权是100=1。二进制中的1101,第一个1的位权是23=8,第二个1的位权是22=4,0的位权是21=2,第三个1的位权是20=1。
位权 | 23 | 22 | 21 | 20 |
二进制数 | 1 | 1 | 0 | 1 |
2. 几种常用的进位计数制
(1) 二进制(2)八进制(3)十进制(4)十六进制
数制 | 数码 | 进位 | 基数 | 位权 | 数的表示 |
二进制 | 0、1 | 逢2进位 | 2 | 23 22 21 20 2-1 2-2 | (R)2、RB |
八进制 | 0~7 | 逢8进位 | 8 | 83 82 81 80 8-1 8-2 | (R)8、RQ |
十进制 | 0~9 | 逢10进位 | 10 | 103 102 101 10010-110-2 | (R)10、RD、R |
十六进制 | 0~9、A~F | 逢16进位 | 16 | 163 162 161 160 16-1 16-2 | (R)16、RH |
3.二进制、八进制、十进制、十六进制的关系表
十进制 | 二进制 | 八进制 | 十六进制 |
0 | 0000 | 0 | 0 |
1 | 0001 | 1 | 1 |
2 | 0010 | 2 | 2 |
3 | 0011 | 3 | 3 |
4 | 0100 | 4 | 4 |
5 | 0101 | 5 | 5 |
6 | 0110 | 6 | 6 |
7 | 0111 | 7 | 7 |
8 | 1000 | 10 | 8 |
9 | 1001 | 11 | 9 |
10 | 1010 | 12 | A |
11 | 1011 | 13 | B |
12 | 1100 | 14 | C |
13 | 1101 | 15 | D |
14 | 1110 | 16 | E |
15 | 1111 | 17 | F |
数在计算机中是以二进制形式表示的。数分为有符号数和无符号数。一个字长为5位的无符号二进制数能表示的十进制数值范围是0 ~31(提示:5位的无符号二进制数范围00000 ~11111,转换成十进制数即为 0 ~31)。
4.进制之间的相互转换
(1)非十进制转换为十进制数
方法:按相应的权展开求和
例1:将二进制数101101.11转换成十进制
(101101.11)B=1×25+0×24+1×23+1×22+0×21+1×20+1×2-1+1×2-2=32+8+4+1+0.5+0.25=(45.75)D
例2:将十六进制数2BE.4转换成十进制数
2BE.4H=2×162+11×161+14×160+4×16-1
=512+176+14+0.25=(702.25)D

(3)二进制数与十六进制数间的相互转换
A.十六进制数转换成二进制数,将十六进制数中每位数字都分别用其对应的四位二进制数表达即可
B.二进制数转换成十六进制数,将整数部分自右向左,小数部分自左向右,每四位划为一段,不足四位补0,并将每段分别用一位十六进制数表示。
例5:将二进制数10100111.10011101转换成十六进制数
(10100111.10011101)2=(A7.9D)16
例6:将十六进制数据89B.3A转换成二进制数
(1D5.C3)16=(000111010101.11000011)2=(1 1101 0101.11000011)2
知识点4:字符的编码
1.编码和解码
计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码";反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码。
2.字符集
字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
3. ASCII
ASCII(American Standard Codefor Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。字符集有共有128种常用字符,有数字0-9、大小写英文字母、通用符号和控制符号。ASCII字符用七位编码,允许加一位奇偶校验位(最高位)构成一个字节。请自行网上搜索ASCII表。
大小规则:
1)数字0~9比字母要小。如"5"<"G";
2)数字0比数字9要小,并按0到9顺序递增。如"4"<"9"
3)字母A比字母Z要小,并按A到Z顺序递增。如"A"<"Z"
4)同个字母的大写字母比小写字母要小。如"A"<"a"。
4. GB2312
《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
基本集共收入汉字6763个(其中一级汉字3755个,二级汉字3008个)和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。
把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。
5. 编码之间的关系
信息交换用汉字编码字符集和汉字输入编码之间的关系是,根据不同的汉字输入方法,通过必要的设备向计算机输入汉字的编码,计算机接收之后,先转换成信息交换用汉字编码字符,这时计算机就可以识别并进行处理;汉字输出是先把机内码转成汉字编码,再发送到输出设备。

说明:
(1) 汉字输入码是为将汉字输入计算机而编制的代码称为汉字输入码,也叫外码。
(2) 汉字信息交换码(国标码):国标码GB2312-80:用于汉字信息处理系统之间或者通信系统直接进行信息交换的汉字代码,简称交换码,也叫国际码。
(3) 汉字内码:在计算机内部队汉字进行存储、处理和传输汉字代码。
汉字的内码=汉字的国标码+8080H
即将国际码的每个字节的最高位置变成1。
(4) 汉字字形码(点阵形)
如采用24*24点阵,每个汉字的存储空间 24*24/8=72字节