首页 理论教育英美政府数据门户网站数据组织、浏览与检索功能解析

英美政府数据门户网站数据组织、浏览与检索功能解析

【摘要】:美国和英国政府数据门户网站Data.gov和Data.gov.uk均是数据可自由获取、公众与政府机构互动的、API接口开放的数据共享平台。我们主要从数据描述与分类的角度调查英美政府门户数据网站数据组织的情况,从数据的检索方式角度调查两者的数据查询功能。通用核心元数据标准为整个数据门户网站的数据资源提供一套通用的描述元素与规范。

美国和英国政府数据门户网站Data.gov和Data.gov.uk均是数据可自由获取、公众与政府机构互动的、API接口开放的数据共享平台。共享平台的科学数据组织就是对平台的数据资源进行选择、描述、整合和存储,提供有序化的结构并形成一个有机整体的过程,以便对数据资源进行存取和利用。我们主要从数据描述与分类的角度调查英美政府门户数据网站数据组织的情况,从数据的检索方式角度调查两者的数据查询功能。

(1)元数据标准

元数据是关于数据的数据,它对数据对象进行描述,有助于用户发现、识别、评价、选择和使用数据资源,实现数据资源的整合、共享、管理和长期保存[99]

Data.gov和Data.gov.uk中每一个数据集下均有相应的元数据著录,调查发现其元数据集复用了都柏林核心元数据集(DC),并在DC的基础上有一定扩展和补充[100]。由于网站的数据涉及学科领域范围广泛、数据发布者机构不同、数据量大、数据类型多样,因此其在DC的基础上分别制定了通用核心元数据标准、特定领域核心元数据标准。通用核心元数据标准为整个数据门户网站的数据资源提供一套通用的描述元素与规范。其中,元数据必选元素包括标题、摘要、关键词(标签)、更新日期、机构名称、联系人及其人邮件、唯一标识符;特定领域必选元数据元素包括数据字典(Data Dictionary)、URL、可获取端点、格式、数据集开放许可、地理范围、时间范围等;元数据可选元素包括发布日期、发布频次、数据质量、所属类别、相关参照等。

特定领域元数据标准是基于通用核心元数据标准的扩展标准,以满足特定学科和领域的特定需求。我们选取了Data.gov和Data.gov.uk中数据集较多的地学、海洋学领域,对其元数据调查发现,地学和海洋学的核心元数据集增加了空间(Spatial)、东经(Bbox East Long)、西经(Bbox West Long)、北纬(Bbox North Lat)、南纬(Bbox South Lat)等描述空间属性的地理坐标元素,这也是地学和海洋学科学数据的特征所在。另外,Data.gov的部分数据集还提供了机构或部门提交时的元数据描述信息,在一定程度上丰富了元数据信息。

(2)数据分类体系与浏览方式

美国Data.gov。数据分类体系是对数据共享平台收集的科学数据资源实施分类组织和用户进行浏览和检索的依据与桥梁,通常提供类似目录式的结构进行浏览。从宏观的角度,Data.gov通过一套完整的元数据分类体系将网站中的各种格式的科学数据资源编制成三种分类类目,包括原始数据目录(Raw Data Catalog)、工具目录(Tools Catalog)和地理数据目录(Geodata Catalog)。并且这三个分类目录具有交叉,所包含的数据资源是可重复的,一个数据资源可存在两个以上的目录中。

从微观角度,Data.gov采用多种标准对科学数据资源进行分类与组织,提供了7种分类浏览方式。即:①数据集类型:分为地理空间数据集和非地理空间数据集,从侧面反映了地理空间数据集在Data.gov数据资源中占了最大部分;②标签方式:按照数据资源元数据中的标签分为气温、物理、海洋地质风速、运输、气象等50类;③媒体类型/格式:按照数据集中数据的格式分为KML、TXT、ZIP、XLS、HTML、CSV、PDF等49类;④不同机构数据分类:将不同机构的相关数据整合在一个大主题之下,分为安全、研究、能源农业、海洋、消费者、法律、生态、商业、制造业、金融教育12个主题;⑤组织/机构的类型:分为联邦政府大学、州政府、当地政府、非营利组织、合作组织、商业机构和其他8类;⑥组织/机构:按照数据集发布的组织/机构分为:美国国家海洋大气管理局、美国地质勘探局、新墨西哥大学地球数据分析中心、国防部等50个组织/机构;⑦主题类别分类:按照数据集所属主题的学科类别分为应用科学与技术、自然资源与环境、物理和海洋学、社会行为科学、教育等50类,且类目是交叉的。

另外,Data.gov的多维数据分类体系还具有一定的“组配”性质,如可以选择组织类型与数据格式进行组配,浏览选定的组织和类型的科学数据资源。

英国Data.gov.uk。Data.gov.uk同样采用了多维数据分类体系,提供了6种数据浏览方式。即:①是否公开发布分类:根据数据集是否已经通过审核并公开发布分为已发布和未发布2类;②按照开放许可协议(Licence)分类:分为遵守开放政府许可协议、没有公布的数据集(Unpublished)、不遵守开放政府许可协议(Non-Open Government Licence)3类;③主题分类:按照数据集所属的主题领域分为环境、政府财政、社会、政府、教育、商业与经济等10类;④媒体类型/格式分类:按照数据的格式分为CSV、XLS、HTML、PDF、XML、RDF、ZIP、WMS、ODS、DOC共10类;⑤数据发布者分类:分为英国水文局、国家统计局、社区部门和当地政府、NHS健康和社会关怀信息中心、北爱尔兰空间数据中心等10类;⑥开放程度分类:按照对数据集开放程度的评价分为五星、三星、二星、一星和无星5类。

同样,Data.gov.uk的数据分类体系也具有一定的“组配”性质,如可以使用开放许可、主题、数据类型三种标准进行组配,浏览同时符合标准的科学数据资源。

(3)数据检索功能

数据检索功能直接影响到用户对政府数据门户网站数据服务功能的体验,我们从检索途径、检索结果输出与排序方式两种角度考察这两个网站的查询功能。(www.chuimin.cn)

①检索方式。

美国Data.gov。Data.gov提供了两种检索方式。一是主题检索,用户在检索框中直接输入所需查询的信息即可,得到检索结果后还可以根据界面左侧的分类浏览体系选择数据格式、机构等进一步精炼检索结果。二是浏览检索,Data.gov可以提供基于数据集类型、标签、媒体格式、主题、组织/机构的类型、组织/机构、学科领域共7种方式的浏览检索。

另外,Data.gov提供了基于地理位置的浏览检索。用户首先从地理位置(直接输入地理名称或使用地图上的绘制矩形工具在地图上绘制地理范围)入手查找相关的科学数据资源,然后还可以使用主题检索实现二次检索,精炼检索结果。并且,用户输入地理名称的前3个字母之后,检索框中会有相应的检索词汇的提示,用户可以直接选择所需的检索词。

英国Data.gov.uk。同Data.gov一样,Data.gov.uk也提供了两种检索方式,一是主题检索;二是浏览检索。不同之处是,Data.gov.uk提供基于公开发布与否、开放许可、主题、资源格式、发布者、开放程度这6种方式的浏览检索。

Data.gov.uk提供了基于导向式的地理位置浏览检索方式,在用户检索的界面中有相应的步骤提示。用户可以直接输入地理名称、邮政编码或地理坐标,也可以使用绘制工具绘制地理范围实现简单检索,同Data.gov一样,Data.gov.uk也可实现二次检索。另外,Data.gov.uk还提供了检索帮助信息,帮助用户快速地使用基于地理位置的浏览检索。

②检索结果输出与排序方式。

政府数据门户网站提供的检索结果输出与排序方式也是衡量网站查询功能的一个重要方面。检索结果的输出格式按详略通常分为简单格式和详细格式[101]。Data.gov和Data.gov.uk输出结果均为简单格式,包括标题、摘要、媒体格式以及所属机构(分为联邦政府、州政府和大学等),其中Data.gov.uk输出结果中还包括了数据集所属的主题领域。在检索结果的排序方式上,二者均提供了相关性、标题名称、最新更新和热门程度四种排序方式,Data.gov和Data.gov.uk默认排序方式分别为按相关性和按热门程度排序。另外,Data.gov.uk在地理位置浏览检索结果中提供了按地理位置排序方式。

(4)关联数据

基于关联关系发布和组织数据资源,可大大提升数据资源的价值,如将有关医疗健康的政府数据与地区的人口、环境等数据关联起来,可以对医疗投入的效率进行评估。

①美国Data.gov。2010年,Data.gov引入了关联数据技术组织数据资源,目前已经发布了50亿个元组,主题涉及政府支出、环境、统计数据等[102]。Data.gov发布关联数据主要分为四个步骤,第一,URI命名。URI中通常包括3种标识符,提供机构标识符、数据集标识符和数据集版本。第二,转换。采用一定的工具如Krextor或程序将XML、CSV等不同格式转换成以RDF表示的数据。第三,发布。发布包括提供RDF转存文件的方式、提供多种格式的下载、存储在RDF三元组存储器中和以可解析URI的方式被关联数据应用获取。第四,关联。包括数据集内部及与外部数据集关联关系的组织与构建,如通过owl:sameAs属性将Data.gov的数据资源与外部关联数据集如Dbpedia、Geonames中数据资源链接在一起。

②英国Data.gov.uk。Data.gov.uk在建设之初就致力于采用W3C标准特别是关联数据标准和方法在网上发布和组织政府数据,其中最主要的两个应用领域是统计数据和地理空间数据[103]。Data.gov.uk在使用关联数据发布和组织数据时,特别强调URI的设计、版本的控制和溯源信息的提供。Data.gov.uk根据实体的类型,设计了4种主要的URI模式,如文档的URI模式为http://{sector}.data.gov.uk/doc/{concept}[/{identifier}]。还为URI制订了一些指导原则,如在设计时要考虑URI持久性的问题,尽量使用URI内部的自然标识符等。另外,用户不仅可以通过SPARQL还可通过RESTful APIs获取关联数据。