GIS数据处理(1)
为了保证系统数据的规范和统一,建立满足用户需求和计算机能处理的数据文件是很重要的。若将地图数据、RS数据、GPS数据、统计数据、文本数据、多媒体数据等数据源转换成GIS可以处理与接收的数字形式,通常要经过验证、修改、编辑等处理。空间数据编辑和处理是GIS的重要功能之一。数据处理涉及的内容很广,主要取决于原始数据的特点和用户的具体需求。一般有数据变换、数据重构、数据提取等内容。数据处理是针对数据本身完成的操作,不涉及数据内容的分析。空间数据的处理也可称为数据形式的操作。
GIS数据的编辑处理主要包括:① 误差识别与纠正,包括地图和相片数字化过程中产生的误差,以及由于地图或相片变形引起的误差;②地图投影和坐标系统的转换,以保证所有的地理数据具有统一的投影和坐标系统;③ 数据结构转换,即根据数据输入格式和分析的需要,实现矢量到栅格或栅格到矢量的转换;④数据的综合概括,以删去数据中不必要的细节;⑤ 图幅边缘匹配,以便于相邻图幅数据的合并或跨图幅的空间分析。
一、空间数据格式转换
常用的地理数据格式见表4.4。由于许多GIS软件系统使用其专用数据格式(如ArcView是用shp数据,Arc/Info是用coverage数据,mapinfo是用tab数据等),由于地理数据格式繁多,虽理论上认为数据格式转换没问题,但实际操作有的难度较大。
在数据格式转换中,需要格式解译程序,一般有直接转换和间接转换两种系统。由于两种系统对数据表达的差异,数据转换后往往会产生失真、歪曲、信息丢失的现象,这不是数据精度的问题,而是对数据的逻辑组织上两套系统关注的侧重点有所差异。例如,实际生产中经常出现的AutoCAD的早期版本的DXF格式转换到ArcGIS的Coverage或Shape文件,由于前者不是GIS软件,而是一个图形处理、图形设计软件, 它重点存储图形的符号化信息,如线划宽度、颜色、纹理等,而后者是GIS软件,存储管理图形目标的属性描述、拓扑结构、图层信息,尽管两者对坐标串存储是可以匹配的,但其他一些信息难于建立匹配关系,有时采用间接的方法,如用DXF的线宽存储Coverage的属性码,这往往要用户自己约定其间的对应关系,缺乏通用性。
表4.4 常用的地理数据格式
| 矢量 | 栅格 |
| ESRI Arc/Info Coverage | ESRI GRID |
| ESRI Arc/Info E00(ArcInfo Interchange Format) | DTED(Digital Terrain Elevation Data) |
| ESRI ArcView Shapefile | ERDAS IMGING |
| MapInfo MIF(MapInfo Interchange Format) | BMP(BitMap) |
| USGSS DLG(Digital Line Graohs) | TIFF(Tagged Image File Format) |
| TIGER( Topologically Integrated Geogapphic Encoding and Referncing System,美国人口统计局) | Geo TIFF(TIFF的扩展,包含地理定位信息) |
| DIME(Dual Independent Map Encoding,美国人口统计局) | GIF(Graphics Interchange Format) |
| AotoCAD DXF(Data Exchange Format) | JPEG(Joint Photographic Experts Group) |
| AotoCAD DWG(Drawing) | PNG(Portable Network Graphics) |
| CGM(Computer Graphics Metafile,ISO) | MrSID(Multi-resolution Seamless Image Database) |
| Microstation DGN(Microstation Drawing File Format) | |
| SDTS/TVP (Spatial Data Transfer Standand/Topological Vector Profile,美国) | |
| NTF(National Transfer Format,英国) | |
| VPF(Vecter Product Format,美国国家影像与制图局 NIMA) |
二、空间数据坐标转换
除数据格式外,数据处理和变换还包括数据从一种数学状态转换为另一种数学状态(即投影变换、辐射变换、比例尺变换、误差修正等);数据从一种几何形态转换为另一种几何形态(如数据拼接、数据截取、数据压缩、结构转换等);数据从全集合到子集合的条件提取(包括类型选择、窗口提取、布尔提取和空间内插等)。空间数据坐标变换的实质是建立两个平面点之间的一一对应关系,包括几何纠正和投影转换。同时还需要进行比例尺变换、变形误差消除、投影类型转换以及坐标旋转和平移等。
1.地图投影变换
地图投影变换是将一种投影转换为另一种投影,使得坐标数据能匹配,通常包括三种方法:①解析变换,{x, y} ® {φ,λ} ® {X, Y},或者 根据原投影点的坐标x反解出纬度φ,然后根据φ、y而求得新投影点的坐标(X、Y);② 数值变换法, 基于数值逼近理论实现两未知投影间的转换,寻找同名点,建立n次多项式变换函数,基于最小二乘原理,解算系数。③数值解析变换法,已知新投影方程式,而原投影方程式未知时,可采取类似上述的多项式,求得资料图投影点的地理坐标(φ,λ),即反解数值变换,然后代入新方程式中,即可实现两种投影间的变换。
2.坐标转换
空间数据坐标变换的实质是建立两个平面点之间的一一对应关系,包括几何纠正和投影转换,它们是空间数据处理的基本内容之一。对于数字化地图数据,由于设备坐标系与用户确定的坐标系不一致,以及由于数字化原图图纸发生变形等原因,需要对数字化原图的数据进行坐标系转换和变形误差的消除。有时,不同来源的地图还存在地图投影与地图比例尺的差异。因此还需要进行地图投影的转换和地图比例尺的统一。
几何纠正是为了实现对数字化数据的坐标系转换和图纸变形误差的改正,市场上常见的几种商用GIS软件一般都有仿射变换、相似变换、二次变换等几何纠正功能。
设x、y为数字化仪坐标,X、Y为理论坐标,m1、m2为地图横向和纵向的实际比例尺,两坐标系夹角为α,数字化仪原点O′相对于理论坐标系原点平移了a0、b0,则根据图形变换原理得出坐标变换公式,见(4.1)式。

仿射变换是GIS数据处理中使用最多的一种几何纠正方法。它的主要特性为:同时考虑到x和y方向上的变形,因此纠正后的坐标数据在不同方向上的长度比将发生变化。其它方法还有相似变换和二次变换等。
经过仿射变换的空间数据,其精度可用点位中误差表示,见(4.2)式。

三、空间数据结构的转换
在第3章介绍了空间数据结构的两种主要类型。由于矢量数据结构和栅格数据结构各有优缺点(见表3.1),一般对它们的应用原则是:数据采集采用矢量数据结构,有利于保证空间实体的几何精度和拓扑特性的描述;空间分析采用栅格数据结构,有利于加快系统数据的运行速度和分析应用的进程。因此,在数据处理阶段,经常要进行两种数据结构的相互转换。值得一提的是,在理论上矢量栅格数据一体化没问题,但利用软件进行实践操作常发生数据丢失现象。
1. 由矢量向栅格转换
矢量数据转换成栅格数据,主要是通过一个有限的工作存储区,使得矢量和栅格数据之间的读写操作,限制在最短的时间范围内。点、线、多边形的矢量数据向栅格数据转换如图4.7所示。在转换处理时,可采用不同的方法,主要方法有内部点扩散法、复数积分算法、射线算法和扫描算法、边界代数算法等。

图4.7矢量向栅格转换的示意
(1)内部点扩散法:由多边形内部种子点向周围邻点扩散,直至到达各边界为止。
(2)复数积分算法:由待判别点对多边形的封闭边界计算复数积分,来判断两者关系。
(3)射线算法和扫描算法:由图外某点向待判点引射线,通过射线与多边形边界交点数来判断内外关系。
(4)边界代数算法:是一种基于积分思想的矢量转栅格算法,适合于记录拓扑关系的多边形矢量数据转换,方法是由多边形边界上某点开始,顺时针搜索边界线,上行时边界左侧具有相同行坐标的栅格减去某值,下行时边界左侧所有栅格点加上该值,边界搜索完之后即完成多边形的转换。
例如,利用ArcView 3.3可直接把矢量表达的等高线向栅格(GRID)格式转换,然后再向DEM格式转换。
1. 由栅格向矢量转换
栅格数据转换成矢量数据过程如图4.8所示,主要方法为:提取具有相同编号的栅格集合表示的多边形区域的边界和边界的拓扑关系,并表示成矢量格式边界线的过程。一般步骤包括:多边形边界提取,即使用高通滤波,将栅格图像二值化;边界线追踪,即对每个弧段由一个节点向另一个节点搜索;拓扑关系生成和去除多余点及曲线圆滑。

图4.8 栅格向矢量转换过程图
栅格向矢量转换处理的目的,是为了将栅格数据分析的结果,通过矢量绘图仪输出,或为了数据压缩的需要,将大量的面状栅格数据转换为由少量数据表示的多边形边界,但是主要目的是为了能将自动扫描仪获取的栅格数据加入矢量形式的数据库。转换处理时,基于图像数据文件和再生栅格文件的不同,分别采用不同的算法。目前基于GIS工具软件可以实现由栅格向矢量转换,例如ArcView 3.3 就可以直接实现GRID格式向TIN格式转换。
四、数据检查和编辑
通过矢量数字化或扫描数字化所获取的原始空间数据,都不可避免地存在着错误或误差,属性数据在建库输入时,也难免会存在错误,所以,对图形数据和属性数据进行一定的检查、编辑是很有必要的。
图形数据和属性数据的误差主要包括以下几个方面:
(1)空间数据的不完整或重复:主要包括空间点、线、面数据的丢失或重复;区域中心点的遗漏;栅格数据矢量化时引起的断线等;
(2)空间数据位置的不准确:主要包括空间点位的不准确、线段过长或过短、线段的断裂、相邻多边形结点的不重合等。
(3)空间数据的比例尺不准确;
(4)空间数据的变形。
(5)空间属性和数据连接有误。
(6)属性数据不完整。
矢量的实体错误包括伪节点、摇摆结点、碎多边形和标注错误等。为发现并有效地消除误差,一般采用如下方法进行检查:
(1)目视检查法:指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误,包括线段过长或过短、多边形的重叠和裂口、线段的断裂等;
(2)逻辑检查法:如根据数据拓扑一致性进行检验,将弧段连成多边形,进行数字化误差的检查。有许多软件已能自动进行多边形结点的自动平差。另外,对属性数据的检查一般也最先用这种方法,检查属性数据的值是否超过其取值范围。属性数据之间或属性数据与地理实体之间是否有荒谬的组合。
(3)叠合比较法:是空间数据数字化正确与否的最佳检核方法,按与原图相同的比例尺用把数字化的内容绘在透明材料上,然后与原图叠合在一起,在透光桌上仔细地观察和比较。一般地,对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据的位置不完整和不准确则须用粗笔把遗漏、位置错误的地方明显地标注出来。如果数字化的范围比较大,分块数字化时,除检核一幅(块)图内的差错外还应检核已存入计算机的其它图幅的接边情况。
对于空间数据的不完整或位置的误差,主要是利用GIS的图形编辑功能,如删除(目标、属性、坐标)、修改(平移、拷贝、连接、分裂、合并、整饰)、插入等进行处理。对空间数据比例尺的不准确和变形,可以通过比例变换和纠正来处理。
五、空间数据的压缩和综合
空间数据采集采用了高频率的点集记录,或者采用的数据的比例尺大于所要求的,数据表达分辨率太高与其他数据不能匹配,则要采用空间数据压缩或地图综合技术降低数据量,降低表达的分辨率,使数据在比例尺表达上能够匹配。
1.空间数据压缩
为减少存储空间、简化数据管理、提高数据传输效率、提高数据的应用处理速度,应通过特定几何算法对空间数据压缩,形成不同详细程度的数据,为不同层次的应用提供所需的适量信息。采用方法通常为坐标串抽稀,如图4.9所示。

图 4.9 等高线数据的压缩
2.地图综合
通俗意义上的综合是思维的抽象化过程,即从精细到粗略的表达。对应的概念有: 概括、抽象化、粗化、化简等。地图综合是在比例尺变化上的一种图形变换,随着比例尺缩小,保留重要地物去掉次要地物,以概括的形式表达图形。它是在比例尺缩小后,从一个新的抽象程度对空间现象的简化。地图综合的操作包括:选取、化简、合并、夸大、移位、骨架化等。在GIS数据处理中通过地图综合技术获得简化的地图数据。
数据压缩与地图综合的相同之处:都导致信息量的减少,都是为了缩小存储空间和节省计算处理时间而去掉繁杂细节。不同之处在于:数据压缩一般是在无损图解精度的前提下去掉“贡献”小而用插值方法可近似恢复原数据,即数据压缩可用数据的插值加密手段进行逆处理,而制图综合不受图解精度约束,被删除或被派生的信息不可逆。也就是说,数据压缩只是几何细节上的较小程度的变换,地图综合则是较大程度的变换,在地理表达层次上获得新的数据表达,如将群集分布的建筑物合并综合后获得居住区的分布,已经产生了新的地理概念“居住区”。而对建筑物的压缩仍然保持各多边形建筑物的独立性,只是通过边界点的抽稀对形状作简化处理。地图综合例子可见图4.10和4.11。

图4.10 等高线数据综合示意

图4.11 建筑物居住区综合示意

