GIS数据采集和输入
地理数据采集主要指实地调查和采样,包括野外考查、GPS定位等。所选择的数据源资料一般要经过预处理(对空间数据分幅、分层和分专题要素)才能借助数字化或其它途径转换成空间数据库可用的数据。
空间地理数据无论是来源于数字数据,还是来源于模拟数据,都需要与选用的GIS软、硬件相兼容。模拟数据,需经过数字化才能输入到GIS中;常用的模拟数据输入方法有:手工数字化、自动数字化(包括扫描)和键盘输入等。计算机虽可阅读和存储数字数据,但输入的数字数据格式与选用的GIS软件要求不一致时,需要通过数据格式转换后才能输入系统。
GIS数据采集与输入的同时,可实现数据编辑功能。数据录入和编辑就是各图层实体的地物要素按顺序转化为x、y坐标及对应的代码输入到计算机中。
一、建库前准备
建库之前需要对数据资源进行调查、统计、分析等。需要考虑所建的空间数据库系统涉及到哪些部门?哪些领域?数据资料、图形数据、表格数据、文字资料是否齐全, 精度要求如何,数据的规范性如何,能否适用于计算机管理,数据的现势性如何等。由于基础空间信息作为空间定位的参照体系,在数据资料中则处于特别重要的地位,因此,对于研究区域的系列地形图基础数据资料应作周密的调查分析。具体的准备工作包括如下。
1.资料准备,区域标定
一般包括如下几项内容:① 基础原始数据的确定(一般只采集存储基础的原始数据,不存储派生的数据,但若使用频率很高,也可作基础数据存储,这就是“数据采集存储原则”);②数据分类项目的确定(即数据分类);③ 数据标准准确性的确定(即数据编码)。
2.进行地理基础的三个统一
地理基础的三个统一,即:投影、比例尺、分类分级编码的统一。
3.软件检查
软件功能测试运行和系统调试等检查及其他辅助工作。
4.硬件检查
检查主机和外设(包括数字化仪、扫描仪、打印机、绘图仪等的设备)等是否正常工作。
5、其它工作
(1)数据的预处理(包括对数据源数据的取舍、增强、分离、证实、加工以及再生产)。
(2)建立数据的质量标准和数据管理责任制。
(3)数据库入库的组织管理工作。
二、几何图形数据的采集
1.数字化方式类型
目前,较常使用的数字化方式有:手扶跟踪数字化、扫描数字化和屏幕数字化三种。
手扶跟踪数字化设备要求特定的手扶跟踪数字化仪;除对处理简单图形要素,效率较高外,也适于更新和补充少量内容;输入一般多采用点方式,但也可根据实际情况选用点、流或结合方式(稍后再说明)。
扫描数字化设备要求有一定的扫描设备及配套的栅格编辑和矢量化软件;使用时速度较快、精度较高、劳动强度低;但使用时需规定最低分辨率和采点密度。扫描影像时,应考虑软硬件的承受能力和查询显示速度。对于线划图,扫描后通过栅格_矢量转换软件(如:R2V)处理后,得到矢量数据,可大大提高数字化工作效率。但对原图数据要求较高,所以,一般应需要对比强、线划实在、背景质地光滑的数据,否则转化得到的线划图就会发生断线、歪曲连通性等严重错误。扫描量化过程如图4.5所示。

图 4.5 扫描量化过程
屏幕数字化需要扫描数字化设备以及屏幕数字化软件,使用该软件精度较高、劳动强度较低。
三种方式采集数据各有优缺点,为了实现GIS空间分析,用户在使用过程中都应注意以下几个方面:
(1)采集精度符合质量控制的要求。
(2)采点密度应合理。
(3)实体采集要精确(如:点状要素应采集符号的几何中心点或定位点;线状要素应沿中轴线采集;面状要素应采集多边形边界和标识点,边线应严格闭合)。
2.几何图形数据的采集步骤
几何图形数据的采集步骤如下。
(1)地图数字化前需要对数字化底图进行适当处理,主要包括:①减少图纸变形的影响;② 线划要素的分段;③ 选取控制点。
(2)确定数字化路线。在数字化之前一定要设计好数字化所采用的技术路线,这关系到地图数字化的效率。确定数字化路线包括:①选择底图,底图的选取主要考虑底图的精度和要素的繁简;② 地图分层与分幅,即对哪些要素数字化,对要数字化的要素进行分层并确定图名;对图幅大的还要涉及对数字化地图的分幅与拼接。
(3)地图数字化过程。是指把传统的纸质地图或其它材料上的地图(模拟信号)转换为计算机可识别的图形数据(数字信号)的过程,以便进一步在计算机中进行存储、分析和输出。
地图数字化包括手工数字化、半自动数字化和自动数字化。
手工数字化(Manual Digitizing):是指不借用任何数字化设备对地图进行数字化,即手工读取并录入(键盘输入)地图的地理坐标数。其容易导致位置误差。手工数字化按照空间数据的存储格式的不同分为以下几种:
①手工矢量数字化:是指直接读取地理实体坐标数据并按一定格式记录下来。具体步骤为:第一,对地理实体编码;第二,量取地理实体的坐标;第三,录入坐标数据;第四,由GIS软件转换成一定格式的矢量数据。
②手工栅格数字化:是指将图面划分成栅格单元矩阵,按地理实体的类别对栅格单元进行编码,然后依次读取每个栅格单元代码值的数字化方法。一般步骤为:第一,确定栅格单元大小(由网格精度要求而定);第二,准备栅格网(一般用聚酯薄膜透明格网);第三,对栅格单元进行编码;第四,读取栅格单元值;第五,数据录入(由键盘输入格网的行数、列数、网格的边长等)。
③手扶数字化仪数字化:指利用手扶数字化仪进行地图数字化。一般需要以下几个基本步骤。
第一步 准备数字化原图。先检查原图内容的完整性。例如,查看多边形是否闭合,线划是否连续等;其次在岛屿多边形上标出一个起始顶点,以保证在数字化岛屿多边形时,最后返回到它的起始顶点;接着在原图上选择和标出四个或四个以上的控制点,每个控制点都必须具有已知的实地注标(经、纬度或地图平面直角坐标),通常选择原图的图幅角点,经纬网或公里网格网交点,或在实地坐标已知的显著地物作为控制点。为保证精度,可将原图内容复制或转绘到不变形的聚酯薄膜上。在原图准备好以后,将它固定到数字化台面上。
第二步 定义数字化规则。包括确定如何将原图包含的要素划分成若干图层,每一个图层应当包含同一实体类型(点、线或面)或同一主题要素,数字化需按图层进行,即一个图层数字化完毕后,再数字化另一图层的要素。此外,在数字化之前,还应当确定图形选取和概括的规则,以控制地图或地理数据综合的程度。
第三步 数字化控制点。将数字化仪游标上的十字丝交点对准在原图上标识好的控制点,并记录它们的点坐标,然后由键盘输入它们的实地坐标。数字化仪记录的点位坐标是相对于数字化台面坐标原点(台面左下角)的平面直角坐标(以厘米为单位),控制点的实地坐标用于将数字化台面坐标转换成在地面的实际坐标。在数字化仪控制软件接收到控制点的实地和数字化台面坐标以后,它计算出一个转换矩阵,并将这个转换矩阵自动地应用于后续数字化采集的坐标数据,再将它们转换成地面实际坐标,然后输入GIS,以此类推。控制点的数字化必须尽可能地精确,因为它决定了坐标数据转换的精度。
第四步 数字化地理实体的几何图形。图形数字化实际上是获取构成点、线或面的所有特征点或顶点的坐标。点状实体数字化为一个点;线状实体数字化为一个有序点集。GIS显示软件将所有点按顺序以直线段相连,形成弧或线段链,点的顺序标志着弧的方向,从而可以建立实体的拓扑关系。面状实体或多边形实体可被数字化为首末同点的有序点集,也可被数字化为一系列的弧段以避免重复数字化相邻多边形的共同边界。每个实体数字化以后,数字化仪控制软件都会自动赋给它们唯一的标识码,用于输入或连接它们的属性数据。
第五步 检查和修正数字化错误。手工检查或用软件识别几何错误(如多边形不闭合、线段不相交等),绘出数字化图形,将它与原图叠加在一起通过比较找出错误(在“GIS数据编辑”部分还会进一步说明)。
第六步 输入属性数据。每一个数字化地理实体的属性数据一般由键盘以数据库表格的形式输入,然后以第四步产生的实体标识码为关键字,将属性数据表与数字化的坐标数据相连。在一些GIS软件中,多边形实体的属性数据往往连接到多边形中心点,常称为多边形标识点(LablePoint)。多边形标识点可在数字化多边形后通过手工数字化获取,或在GIS软件将数字化的弧段形成多边形时自动产生。
大多数手扶数字化仪提供两种操作方式:点方式(Point Mode)和流水方式(Stream Mode)。点方式是由操作员选取图形特征点,按动游标上记录点位的按钮获取点的坐标(上述介绍就是点方式)。使用点方式,操作员可以根据图形的复杂程度确定特征点的选取密度。值得一提的是,这个操作实际上就是地图概括的过程。流水方式是将数字化过程半自动化。在流水方式下,数字化仪控制软件每隔预先设置的时间或距离间隔,自动记录游标十字丝交点所在的点位坐标(可利用本教材配套《GIS实验指导》一书中的实验项目二进行操作练习)。
自动数字化主要有两种方法:扫描和自动跟踪数字化。
① 扫描数字化:获取栅格数据的主要方法是使用扫描仪。通过对地图原图或遥感相片作逐级扫描,将采集到的原图资料上图形的反射光强度转换成数字信息,以栅格数据格式输出地图或相片的数字影像。地图和遥感相片的扫描数字化主要采用滚筒式扫描仪和大幅面送纸式扫描仪。扫描仪数字化数据在GIS中主要有两个用途,一是扫描输出的地图和相片数字影像按照一定的地表坐标参照系定位,可用作显示矢量数据背景。其二是经扫描以栅格数据格式输出的地图和遥感相片经过一个矢量化过程,可转换成矢量数据。矢量化是将栅格数据转换成矢量数据的过程(有关“矢量栅格一体化问题”稍后介绍)。
扫描矢量化处理流程:准备纸质地图→坐标配准→扫描转换→拼接子图块→裁剪地图→屏幕跟踪矢量化→矢量图合成、接边→矢量图编辑→存入空间数据库。
屏幕跟踪矢量化流程:准备扫描图像→选择要数字化的地图→识别该图的投影和坐标系统→在图上选取至少4个控制点并获取控制点的实际地理坐标→然后将地图扫描成GIS软件可识别的栅格图像格式保存。如果没有现成的坐标系统,也可以在图上建立自己的坐标系统并读取相应的控制点的坐标。
② 自动跟踪数字化:使用具有激光和光敏器件的自动跟踪数字化仪,模拟手工数字化方法自动跟踪地图上的线划。自动跟踪数字化仪输出的是矢量格式的(x,y)坐标串,但精度不是很高。
三、属性数据采集和文件组织
属性数据一般是经过抽象的概念,通过分类、命名、量算、统计得到。任何地理实体至少有一个属性,而GIS的分析、检索和表示主要是通过对属性的操作运算实现的。属性的分类系统、量算指标对系统的功能有较大的影响。
1.属性数据的采集
在数字化过程中,输入地理实体的定位数据的同时,可以采集和输入它们的属性数据,但通常属性数据是分开输入的。这主要是因为属性数据输入相对简单,不需要特殊的输入设备。
(1)键盘输入方式:属性数据可以从键盘输入到计算机数据文件中,或直接输入到数据库(如Foxpro、Access等)中。某些GIS项目还设计特定形式的、具有数据类型约束的数据输入表用于输入属性数据(如MapInfo 软件设计的是Table表等)。属性数据大多以二维表的形式输入,表的行表示地理实体,列表示属性。但属性数据表必须有一个能与定位数据相关联的关键字(如地理实体的唯一标识码)。
(2)人机交互方式:用程序批量输入或辅助于字符识别软件进行输入。
(3)注记识别转换输入:地图上的某些注记往往是对实体目标数量、质量特性描述的属性信息,通过扫描后,能自动识别获得这些信息,并将它们转储到属性表中,完成注记识别转换输入。
2.属性数据的文件组织
属性数据的组织有文件系统、层次结构、网络结构与关系数据库管理系统等。目前已被广泛采用的主要是关系数据库系统(详见第3章)。在关系表中存储管理属性数据,首先要定义表头,即对字段的名称、数据类型、表达长度规定好,应用SQL操作语言创建表格(Create Table),通过数据插入、批量导入等操作接受属性数据的输入。一旦属性表建立后,还要指定关键字的字段、对于复杂的大容量属性表还要建立索引。
四、属性数据和图形(几何)数据的连接
在数据的织与管理中,最为关键的是如何将空间数据与属性数据融合为一体。GIS的数据存储结构是由数据的组织决定的。例如:ArcView GIS软件的数据存储结构是二维表格,其中属性数据和图像(几何)数据的关联是通过标识符(Id码)连接的(如图4.6所示)。标识符可手工输入或由系统自动生成(如用顺序号代表标识符等)。

图4.6空间数据与属性数据的综合体
由于目前GIS的地物属性数据库大多是以传统的关系数据库为基础的,基于属性的GIS查询可以通过关系数据库的SQL语言进行查询。地物的图形数据和属性数据虽是分开存储的,但图形和属性之间的关联是通过目标的ID码连接,或通过SQL语言进行操作查询数据库。

