地理数据分类和编码
地理数据源庞大且复杂,若根据数、模方式与否可概括为两种不同的形式,即数字数据和模拟数据。前者可直接或经转换输入到GIS中,后者必须转换成数字形式才能输入到计算机为GIS所用。一旦地理数据输入系统后,就可创建GIS空间数据库。但值得注意的是,在GIS中,地理数据的采集和输入都要根据一定的分类标准和编码体系进行组织的。
一、地理数据的分类
1.分类概念及原则
分类是指根据属性或特性将地理实体划分为各种类型,表示同一类型地理实体的数据可以采集在一起,构成一个图层(如图4.2所示)。也就是说,GIS是根据地理实体的类型通过数字化采集和组织地理数据的。分类是将具有共同的属性或特征的事物或现象归并在一起,而把不同属性或特征的事物或现象分开的过程。拟定分类体系是进行空间数据编码的工作基础,其目的是识别要素和提供要素的地理含义。

图4.2 现实世界和图层划分
地理数据的分类体系由两部分组成,即类型名称和描述。类型名称可以根据地理实体的形态或功能而定,但究竟是形态分类还是功能分类,主要取决于地理数据的应用。分类体系的描述部分则是描述各类地理实体的基本功能和性质。例如八大土地类型是“类型名称”,各地类的特性如何则属于“描述”。
在一个大型GIS项目中,除非已有一个合适的分类系统,否则需要在深入理解用户需求的基础上,建立一个完整的地理数据分类体系,为地理数据的采集、编码和存储提供标准。
一个理想的地理数据分类体系应该具有科学性、系统性、完整性和一致性,并能做到简明、充分满足地理数据应用要求。分类过细或过粗都会导致一些潜在的实际问题。在GIS中,分类系统用特征码表示。特征码就是按照信息分类编码的结果,利用一组数字、字符或数字字符的混合来标记不同类别信息的代码。特征码多采用线分类法,它是将空间实体根据一定的分类指标形成若干层次目录,构成一个分层次、逐级展开的分类体系。
由于分类系统是一个分级系统,因此使用的特征码必须采用统一拟定的编码系统,并符合各行各业邻域的分类分级体系,拟定的特征码要能为多用途数据库提供足够的实用信息,便于计算机处理与信息交换,易于识别和记忆,并使冗余数据最少,代码长度适度。此外还要坚持:①标准化和通用化;② 唯一性和代表性;③ 清晰性和明确性;④ 可扩充性和稳定性;⑤ 完整性和易读性等基本原则。
目前,有关地理基础信息数据分类体系的中国国家标准主要包括1992年发表的“国土基础信息数据分类与代码”(标准编号:GB-T13923)、1993年的“1:500,1:1000,1:2000地形图要素分类与代码”(标准编号:GB-T14804)、1995年的“1:5000,1:10000,1:25000,1:500000,1:100000地形图要素分类与代码”(标准编号:GB-T15660)和2001年颁布的“专题地图信息分类与代码”(标准编号:GB-T18317)。不同的专业部门也有相应的分类系统。例如1984年,中国农业区划委员会根据土地的用途、经营特点、利用方式和覆盖特点等因素,将土地划分为8个一级类型、46个二级类型,表4.2描述了其中8个一级类型。表4.3是福建土地利用和编码系统。
表4.2 中国农业区划委员会土地利用分类体系中的八个一级类型
| 类型名称 | 描述 |
| 1.耕地 | 种植农作物的土地,包括新开荒地、休闲地、轮歇地、草田轮作地;以种植农作物为主间有零星果树、桑树或其他林木的土地;耕种三年以上的滩地和海涂。耕地中包括南方宽<1.0m,北方宽>2.0m的沟、渠、路、田埂,但不包括地面坡度>6°的梯田坎 |
| 2.园地 | 种植以采集果、叶、根茎等为主的集约经营的多年生木本和草本作物、覆盖度>50%,或每亩株数大于合理株数70%的土地,包括果树亩圃等用地 |
| 3.林地 | 生成乔树、竹类、灌木、沿海红树林等林木的土地,不包括居民绿化用地,以及铁路、公园、河流、沟渠的护路、护岸林 |
| 4.牧草地 | 生成草本植物为主,用于畜牧业的土地 |
| 5.城镇、村庄、工矿用地 | 城市、建制镇、村民及居民点以外的工矿、国防、名胜古迹等企事业单位用地,包括其内在交通、绿化用地 |
| 6.交通用地 | 居民点以外的各种道路及其附属设施和民用机场、港口码头用地,包括护路林 |
| 7.水域 | 陆地水域和水利设施用地及表层被冰雪常年覆盖的土地,不包括滞洪区和垦殖三年以上的滩地、滩涂中的耕地、林地、居民点、道路等 |
| 8.未利用土地 | 目前还未利用的土地,包括盐碱地、沼泽地、沙地、裸岩石砾地、梯田坎等难以利用的土地 |
表4.3 福建土地利用和编码系统
| 一级类 | 二级类 | 编码 |
| 1耕地 | 平原水田 | 11 |
| 丘陵水田 | 12 | |
| 山地水田 | 13 | |
| 旱地 | 14 | |
| 菜地 | 15 | |
| 2园地 | 果园 | 21 |
| 茶园 | 22 | |
| 3林地 | 有林地 | 31 |
| 灌木林地 | 32 | |
| 疏林地 | 33 | |
| 其他林地 | 34 | |
| 迹地 | 35 | |
| 人工幼林 | 36 | |
| 4草地 | 中高覆盖草地 | 41 |
| 低覆盖草地 | 42 | |
| 5居民点及工矿用地 | 城镇 | 51 |
| 农村居民点 | 52 | |
| 独立工矿 | 53 | |
| 盐田 | 54 | |
| 采矿点 | 55 | |
| 6交通用地 | 铁路 | 61 |
| 公路 | 62 | |
| 民用机场 | 63 | |
| 港口和码头 | 64 | |
| 7水域 | 河流水面 | 71 |
| 湖泊水面 | 72 | |
| 水库水面 | 73 | |
| 天然滩涂 | 74 | |
| 养殖滩涂 | 75 | |
| 水工建筑 | 76 | |
| 红树林 | 77 | |
| 8未利用地 | 盐碱地 | 81 |
| 沙地 | 82 | |
| 裸岩、石砾地 | 83 |
2.分类码和标识码
分类码是直接利用信息分类的结果制定的分类代码,用于标记不同类别信息的数据。分类码一般由数字或字符或数字字符混合构成。例如:美国地质调查局(USGS)制订的《数字线划图形标准》中的7位代码结构,前三位为主码,后四位为子码,如图4.3所示。中国1:100万地形数据库的数据分类体系采用三级结构,即代码由三段码组成:归属码、分类码和标识码。归属码说明数据来源,包括提供数据的单位、系统名称和数据库名称等,它除在不同系统之间交换或转换数据外,一般不使用;分类码说明实体所属的类别,它完全按照《国土基础信息数据库分类与代码》国家标准;标识码也称识别码,用于标识主要的要素实体,如县级以上居民地及其行政界线、铁路、主要公路、主要河流和湖泊等,用于对实体界线检索,标识码有6位字符和数字混合构成。代码结构和标识码示意,如图4.4所示。

图4.3 USGC《数字线划图形标准》采用的代码结构

图4.4 代码结构和标识码示意图
代码是给予被处理对象(事物、概念)的符号,是用来代表事物某种属性的一组有序的字母,具体地说,代码可用来代替某一名词、术语,甚至某一个特殊的描述短语。它是人机的共同语言,是进行信息分类、校对、统计和检索的关键。由于当前计算机只能识别以二进制为基础的数字、英文、汉字及少数特殊符号,因此,代码设计就是如何合理地把被处理对象数字化、字符化的过程。代码设计是一项复杂的工作,需要多方面的知识和经验。涉及面广的代码,一般要由几方面人员在标准化部门组织下进行,制定后要正式颁布,统一贯彻。
代码是用来表征客观事物的一个或一组有序的符号,它应易于计算机和人识别与处理。代码也简称为“码”。编码就是用数字或字母代表事物。通过编码,建立统一的经济信息语言,有利于提高通用化水平,使资源共享,达到统一化;有利于采用集中化措施以节约人力,加快处理速度,便于检索。具体地讲,代码具有鉴别功能、分类、排序以及专用含义。具体例子可参见第8章。
二、地理数据的编码
地理编码是在数据分类的基础上,以易于计算机和人识别的代码(Code)唯一地标识地理实体的类型,代码由字符(数字或字母或数字和字母混合)构成,由于代码简单,计算机易于准确操作和管理,在地理数据库中,地理实体的类别大多以代码表示。在地理数据采集过程中,要以代码标识地理实体的类型和属性,是GIS设计中最重要的技术步骤——地理编码,它是现实世界与信息世界之间的转换接口(实际就是一个应用程序连接)。
通用地理编码的基本要求包括:① 要素识别(即地方名称、实体类型、地址等);②要素位置(用于唯一地识别实体在地表上的位置);③ 要素特征(属性);④ 作用范围描述;⑤ 提供地理定义。
服务于空间分析的地理编码分为拓扑编码和坐标编码(详见第3章)。
根据这些原则设计的代码主要用于控制地理数据数字化采集和输入,用于在地理数据库中系统地表示地理实体以及它们的属性。代码以及相应的描述通常也存储在地理数据库中作为元数数据的一部分,以帮助用户理解、分析、管理和显示地理数据。

