1
数据库原理与应用技术
1.2.2.1 1.2.1 数据的三个范畴
1.2.1 数据的三个范畴

数据表示信息,信息反映事物的客观状态。数据、信息、物质三者之间相互联系,自成一体。而从事物的状态到表示该状态的数据,经历了三个不同的世界,即现实世界、信息世界和计算机世界(数据世界)。为了把现实世界中的具体事物抽象、组织为某一 DBMS所支持的数据模型,首先要将现实世界抽象为信息世界,然后将信息世界转换为计算机世界。也就是说,首先把现实世界中的客观对象抽象为某一种信息结构,这种信息结构并不依赖于具体的计算机系统,它不是某一个DBMS所支持的数据模型,而是概念模型;然后再把概念模型转换为计算机上某一DBMS所支持的数据模型。

图1-5 三个世界的关系图

现实世界事物之间的联系最后可以用计算机和数据库所能理解和表现的形式反映到数据库中,这是一个从现实世界到信息世界再向计算机世界逐步转化的过程。无论从现实世界到信息世界,还是从信息世界到计算机世界的转化,每次转化都是一次新的提升和加工过程,都是一次新的飞跃。三个世界转换的关系图如图1-5所示。

在上述三个世界中,所用的术语和概念是不相同的,下面分别予以介绍。

1. 现实世界

现实世界是指客观存在的事物及其相互间的联系。世界上的事物虽千差万别,每种事物均具有各自的特征,但彼此之间既相互区别又相互联系。

我们可以利用事物的特征来将不同的事物区分开来,提取所需的信息。如在学生信息管理中,学生的特征可用学号、姓名、性别、出生日期和简历等来表示;而在企业人事管理系统中,职工的特征可以用单位号、姓名、性别、身份证号、政治面貌和社会关系等来表示。选取的特征完全由具体需求所决定。同时,事物之间的联系也是很丰富的,通常只选取那些对我们来说有用的信息。例如,在一个学校中,人与人之间有很多关系,教师之间就有同一个系、同一个教研室、同一课题组、上级与下级的关系。然而,在教研室的管理中,我们最关心的关系是同一个教研室的关系;在科研管理中,最关心的是同一课题组的关系。要想让现实世界在计算机世界的数据库中得以实现,重要的就是将那些最有用的事物特征及其相互间的联系提取出来。

客观事物是信息的来源,是设计数据库的出发点。

2. 信息世界

信息世界是现实世界在人脑中的反映,是对客观事物及其联系的一种抽象描述。将现实世界中的事物及其相互间的联系经过收集、分析、抽象等过程,形成概念模型。概念模型是对信息世界的描述,介于现实世界与计算机世界之间,起着承上启下的作用。信息世界的主要概念包含以下几方面。

(1) 实体(Entity),将现实世界中客观存在的、能够相互区分的事物经过加工、分类,抽象成为信息世界的实体。它可以是事物也可以是事物之间的联系,可以是具体的也可以是抽象的,如一个学生、一门课程、一次考试或一次比赛等。同一类实体的集合称为实体集。

(2) 属性(Attribute),现实世界中事物的特征,即实体的特征,用属性表示。例如,学生这个实体可以用学号、姓名、性别、身份证号、出生日期、系和年级等属性来描述。用这些属性的具体值就可以描述一个具体的实体。

(3) 关键字(Key),如果某个属性或属性组合的值能够唯一地标识出实体集中的每一个实体,那么该属性或属性组合就可以被选做关键字。用于标识的关键字也称为码。

(4) 联系(Relation),实体集之间的对应关系称为联系,它反映现实世界中事物之间的相互关联。例如,学生通过选课和课程联系起来。

3. 计算机世界

计算机世界即数据世界。可用DBMS支持的数据模型来描述该世界,它将概念世界中的实体与实体之间的联系进一步抽象成便于计算机识别的方式。在计算机世界中用到的术语如下。

(1) 数据项,是实体、属性的数据表示。例如学号、姓名等都是数据项。

(2) 记录,是实体的数据表示,由若干数据项组成。

(3) 文件,是同类记录的集合。一个文件包含的都是同类型的记录。

(4) 数据模型。在计算机世界中,记录和记录之间的联系就是数据模型。该模型是结构数据模型,其包括层次模型、网状模型和关系模型,其中关系模型是目前应用最广泛和最成熟的一种数据模型。