GIS数据质量和精度控制
一、数据质量
GIS数据质量包含如下五个方面。 ①位置精度,如数学基础、平面精度、高程精度等,用以描述几何数据的质量;②属性精度,如要素分类的正确性、属性编码的正确性、注记的正确性等,用以反映属性数据的质量;③逻辑一致性,如多边形的闭合精度、结点匹配精度、拓扑关系的正确性等;④完备性,如数据分类的完备性、实体类型的完备性、属性数据的完备性、注记的完整性等;⑤现势性,如数据的采集时间、数据的更新时间等。
GIS数据质量的高低对GIS空间分析影响很大。也就是说,GIS数据在采集、处理过程中会存在数据不确定性问题。
近年来,为了保证地理数据质量,促进地理数据的交换和共享,许多国家、地区和国际组织相继制定了一系列地理数据标准,一些主要的GIS软件开发商也制定了它们自己的数据标准。这些标准的建立和遵循,对于数据的交换、数据间的兼容,提高地理数据的利用率和使用价值是有利的。有关中国的地理数据标准可参阅2003年何建邦等编著的《地理信息共享的原理与方法》一书。
二、数据共享
数据共享就是让在不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。
数据共享的程度反映了一个地区、一个国家的信息发展水平,数据共享程度越高,信息发展水平越高。要实现数据共享,首先应建立一套统一的、法定的数据交换标准,规范数据格式,使用户尽可能采用规定的数据标准。如美国、加拿大等国家都有自己的空间数据交换标准,目前我国正在抓紧研究制定国家的空间数据交换标准,包括矢量数据交换格式、栅格影像数据交换格式、数字高程模型的数据交换格式及元数据格式,该标准建立后,将对我国GIS产业的发展产生积极影响。其次,要建立相应的数据使用管理办法,制定出相应的数据版权保护、产权保护规定,各部门间签定数据使用协议,这样才能打破部门、地区间的信息保护,做到真正的信息共享。
三、数据误差
衡量GIS空间数据(几何数据和属性数据)的可靠性,通常用空间数据的误差来度量。误差是指数据与真值的偏离。GIS空间数据的误差可分为源误差和处理误差。
1.源误差
源误差是指数据采集和录入中产生的误差,包括以下几种。
(1)遥感数据:摄影平台、传感器的结构及稳定性、分辨率等。
(2)测量数据:人差(对中误差、读数误差等)、仪差(仪器不完善、缺乏校验、未作改正等)、环境(气候、信号干扰等)。
(3)属性数据:数据的录入、数据库的操作等。
(4)GPS数据:信号的精度、接收机精度、定位方法、处理算法等。
(5)地图:控制点精度,编绘、清绘、制图综合等的精度。
(6)地图数字化精度:纸张变形、数字化仪精度、操作员的技能等。
2.处理误差
处理误差是指GIS对空间数据进行处理时产生的误差,包括:几何纠正、坐标变换、几何数据的编辑、属性数据的编辑、空间分析(如多边形叠置等)、图形化简(如数据压缩)、数据格式转换、计算机截断误差、空间内插、矢量栅格数据的相互转换等处理误差。
3.GIS中的误差传播
GIS中的误差传播是指对有误差的数据,经过处理生成的GIS产品也存在着误差。误差传播在GIS中可归结为三种方式。
(1)代数关系下的误差传播:是指对有误差的数据进行代数运算后,所得结果的误差。
(2)逻辑关系下的误差传播:指在GIS中对数据进行逻辑交、并等运算所引起的误差传播,如叠置分析时的误差传播。
(3)推理关系下的误差传播:这是指不精确推理所造成的误差。
四、数据质量评价
研究GIS数据质量对于评定GIS的算法、减少GIS设计与开发的盲目性都具有重要意义。精度越高,代价越大。GIS数据质量对保证GIS产品的可靠性有重要意义。评价方法如下。
1.直接评价法
直接评价法包括以下两种。
(1)用计算机程序自动检测:某些类型的错误可以用计算机软件自动发现,数据中不符合要求的数据项的百分率或平均质量等级也可由计算机软件算出。此外,还可检测文件格式是否符合规范、编码是否正确、数据是否超出范围等。
(2)随机抽样检测:在确定抽样方案时,应考虑数据的空间相关性。
2.间接评价法(地理相关法和元数据法)
间接评价法包括地理相关法和元数据法,一般通过外部知识或信息(如用途、数据历史记录、数据源的质量、数据生产的方法、误差传递模型等)进行推理来确定空间数据的质量方法。
3、非定量描述法
通过对数据质量的各组成部分的评价结果进行的综合分析、或定量指标的分级描述、或定性分析与定量打分来确定数据的总体质量的方法。
五、空间数据标准
空间数据标准,就是指空间数据的名称、代码、分类编码、数据类型、精度、单位、格式等的标准形式。每个地理信息系统都必须具有相应的空间数据标准。目前,我国已有一些与GIS有关的国家标准,内容涉及数据编码、数据格式、地理格网、数据采集技术规范、数据记录格式等(如GB2260-95《中华人民共和国行政区划代码》、GB13923-92《国土基础信息数据分类与代码》、GB11708-89《公路桥梁命名和编码规则》、GB14804-93《1∶500、1∶1000、1∶2000地形要素分类与代码》等)。
数据交换标准方式主要有四种,如图4.13所示,特点比较见表4.6。

图4.13 数据交换标准方式(a至d四种)
表4.6 数据交换标准方式和特点比较
| 方式 | 特点 |
| 外部数据交换标准 | 自动化程度不高,速度较慢等,但它可解决不同GIS之间的数据转换问题,是目前实现数据共享的主流方式。我国已发布了GIS的外部数据交换格式,包括矢量数据交换格式、栅格数据交换格式和数字高程模型交换格式标准 |
| 空间数据互操作 协议 | 比外部数据交换标准方便,但由于各种软件存储和处理空间数据的方式不同,空间数据的互操作函数又不可能很庞大,因此往往不能解决所有问题 |
| 空间数据共享平台 | 服务器存放空间数据采用客户机/服务器体系结构,各种GIS通过一个公共的平台在服务器存取所有数据,以避免数据的不一致性。特点:思路较好,但现有的GIS软件各有自己的底层,要统一平台目前难以实现 |
| 统一数据库接口 | 在对空间数据模型有共同理解的基础上,各系统开发专门的双向转换程序,将本系统的内部数据结构转换成统一数据库的接口。特点:这种方式的前提,首先要求对现实世界进行统一的面向对象的数据理解,这不易实现 |
要实现空间数据标准,就需要“数据共享”。所谓“数据共享”,就是让在不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。
实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,因而给数据共享带来了很大困难,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息的棘手问题,严重地阻碍了数据在各部门和各软件系统中的流动与共享。
目前影响数据共享的因素主要有三个方面。
(1)在体制上:行业数据保密政策。
(2)在技术上:不同系统对空间数据采用的数据结构和数据格式不同。
(3)在网络化程度上:资源共享是网络主要功能之一,用户可共享分散在不同地点的各种软硬件。
数据共享主要途径有:① 地理信息使用相同的定义;② 实行数据转换标准;③通过 “互操作地理信息处理(Interoperable Geoprocessing)”。其中互操作地理信息处理是指数字系统的这些能力:自由地交换所有关于地球的信息,即所有关于地表上的、空中的、地球表面以下的对象和现象的信息;通过网络协作运行能够操作这些信息的软件。概括为自由交换地理空间信息以及协作运行空间信息处理的软件。
最基层的是内部数据结构的公开发表。最理想的是用户和不同的信息群在Internet和Intranet中能灵活地进行地理数据及处理的互操作。
但目前实施有难度,困难在于互操作的建立、数据的公开发表等落实还不得力。
六、元数据
1.元数据的定义
元数据(Metadata或 Data About Data)是关于数据的数据,是对数据做进一步解释和描述的数据,常用来说明数据的来源、所有者、质量以及对数据处理和转换过程的说明等。它通过对地理空间数据的内容、质量、条件和其他特征进行描述与说明,以便人们有效地定位、评价、比较、获取和使用与地理相关的数据。
2.元数据的作用
元数据的作用如下:
(1)用来组织和管理空间信息,并挖掘空间信息资源。
(2)帮助数据使用者查询所需空间信息。
(3)组织和维护一个机构对数据的投资。
(4)用来建立空间信息的数据目录和数据交换中心。
(5)提供数据转换方面的信息。
3.元数据的分类
元数据可以分为高层、中层和底层元数据三类。
(1)高层元数据(数据集系列Metadata):即描述整个数据集的元数据,包括数据集区域采样原则,数据库的有效期,数据的时间跨度、分辨率以及方法等。是用户用于概括性查询数据集的主要内容。
(2)中层元数据(数据集Metadata):既可以作为数据集系列Metadata的组成部分,也可以作为后面数据集属性以及要素等内容的父Metadata数据集系列。全面反映数据集的内容。
(3)底层元数据(要素、属性的类型和实例Metadata):包括最近更新日期、位置纲量、存在问题标识(如数据的丢失原因)、数据处理过程等。是元数据体系中详细描述现实世界的重要部分。
4.元数据内容:
应对空间元数据所要描述的一般内容进行层次化和范式化,指定出可供参考与遵循的空间元数据标准的内容框架如图4.14所示。

图4.14元数据标准的内容框架图
第一层是目录层,主要用于对数据集信息进行宏观描述,适合在数字地球的国家级空间信息交换中心或区域以及全球范围内管理和查询空间信息时使用。
第二层是空间元数据标准的主体,由八个基本内容部分和四个应用部分组成。
图4.14元数据标准的内容框架图
5.元数据获取
数据收集前后,元数据的获取方法有以下几种:
(1)数据收集前,得到的是根据要建设的数据库的内容而设计的元数据,包括数据类型、数据覆盖范围、使用仪器说明、数据变量表示、数据收集方法、数据时间、数据潜在利用等。获取方法为键盘输入以及关联法。
(2)数据收集中,得到的是随数据的形成同步产生的元数据,例如在测量海洋要素数据时,测点的水平和垂直位置、深度、温度等是同时得到的。获取方法为测量法。
(3)数据收集后,得到的是根据需要产生的元数据,包括数据处理过程描述、数据的利用情况、数据质量评估、数据集大小、数据存储路径等。获取方法为计算法和推理法。
七、GIS互操作
1、互操作的含义
互操作指的是异构环境下两个或两个以上的实体,尽管它们实现的语言、执行的环境和基于的模型不同,但它们可以互相通信和协作,以完成某一特定任务,这些实体包括程序、对象、系统运行环境等。互操作地理信息处理,是指自由地交换所有关于地球的信息,即所有关于地表上的、空中的、地球表面以下的对象的信息,通过网络协作运行能够操作这些信息的软件(概括为自由交换地理空间信息及协作运行空间信息处理的软件)。
2、GIS互操作类型
GIS互操作类型包括软件、数据、语义互操作。
(1)软件互操作:强调软件功能块间的相互调用。
(2)数据互操作:强调数据集之间相互透明的访问。
(3)语义互操作:强调信息的共享,在一定语义约束下(对地理现象共同的理解下)的互操作。
3、GIS 互操作问题和措施
目前,从所建立的GIS来看,大多被认为是信息孤岛。也就是说,不同系统之间存在互操作问题,具体原因如下。
(1)没有统一的标准,各自采用不同的数据格式、数据存储和数据处理方法。
(2)系统的开发均建立在具体、相互独立和封闭的平台上;且不同应用部门对地理现象有不同的理解,导致对地理信息有不同的定义,使得不同应用系统之间在共同协作时无法进行信息交流和数据共享。
问题解决,急需实现异构环境GIS间的互操作,建议措施:
(1)GIS基础数据必须共享化。
(2)GIS应用应趋向多学科综合和集成化。
(3)GIS服务应走向社会化和网络化。
4、GIS互操作现状
目前,主要有两种方法初步实现互操作。
(1)OpenGIS规范:通过规定统一的系统设计和开发软件工具的框架,开放GIS协会(OpenGIS Consortium,简称OGC)为实现GIS间的互操作制定了开放式GIS(Open GIS,简称OGIS)地理数据交换规程或规范(稍后介绍),来解决互操作问题。
(2)构件(组件)技术:通过程序设计中的组件技术,将GIS某功能包装成独立的组件,使之可以在不同的系统环境下调用,以解决互操作问题。
八、Open GIS
1.Open GIS的提出
由于现实世界的复杂性,导致地理数据格式多样性。而多数据格式是多源空间数据集成的瓶颈,也是Open GIS提出的基础。
(1)多语义性:地理系统研究对象的多种类特点决定了地理信息的多语义性。一个GIS所研究的决不会是一个孤立的地理语义,但不同系统解决问题的侧重点也有所不同,因而会存在语义分异问题。
(2)多时空性和多尺度:一个GIS系统中的数据源既有同一时间不同空间的数据系列,也有同一空间不同时间序列的数据。还会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。
(3)获取手段多源性:获取地理空间的数据的方法多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。
(4)存储格式多源性:图形数据可以分为栅格格式和矢量格式两类,传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文件中。不同的GIS软件采取不同的文件存储格式。
2.OpenGIS特点
OpenGIS是指在计算机和通信环境下,根据行业标准和接口所建立的地理信息系统,在这个系统中,不同厂商的地理信息系统软件以及异构分布数据库能相互通过接口交换数据,并将它们结合在一个集成式的操作环境中。OpenGIS具有以下几个特点:
(1)互操作性 不同地理信息系统软件之间连接方便,信息交换没有障碍。
(2)可扩展性 在硬件方面,可在不同软件不同档次的计算机上运行,其性能和硬件平台的性能成正比。在软件方面,增加了新的地学空间和地学数据出来功能。
(3)技术公开性 开放的思想主要是对用户公开,公开源代码及规范说明是重要的途径之一。
(4)可移植性 指独立于软件、硬件及网络环境,因此不需要修改便可在不同的计算机上运行。
(5)兼容性 通过无缝集成技术保护用户在原有数据及软件上投资,将现有的信息技术和已有的地学处理软件溶为一体,同时对用户是透明的,应用程序稍加修改便能在不同的平台上运行。
(6)可实现性 随着操作系统、通讯技术及面向对象方法技术在分布处理系统中的应用,开放式地理信息系统的开发将变得易于实现。
(7)协同性 能够尽可能的兼容其它信息系统以及共享信息技术标准。
3.Open GIS规范的作用
OGIS规范把商业部门、集成部门、用户、研究人员、数据提供商等连接到一起,通过必要的软件工具和通信技术,为各种用户提供对地理信息的共享和互操作如图4.15所示。

图4.15地理信息的共享和互操作示意
关于如何实现OpenGIS规范,OpenGIS规范并没有提出具体的标准实施模式,其框架主要由三部分组成
(1)开放的地理数据模型(Open GeodataModel,OGM):包含认可的类型和结构集合(将地理现实抽象为实体(特征)和现象(层)),通过这一集合,可表示任何地理模型。
(2)OGIS服务模型(Open Service Model,OSM):定义地学数据服务的对象模型,由一组相互可操作的软件构件集组成,为对特征的访问提供对象管理、获取、操作、交换等服务设施。
(3)信息群模型(Information CommunitiesModel):信息群指共享数据的用户群,可以是数据提供者、使用者。不同用户对数据的理解不同,引起语义上的交流障碍。信息群模型,主要任务是解决具有统一的开放地理数据模型(OGM)及语义描述机制的一个信息部门内部以及不同OGM及语义描述的信息部门之间的数据共享问题。采用的主要方法是语义转换,使具有不同特征类定义以及语义模式的信息用户群之间实现语义的互操作。

