英美政府最先启动了数据门户网站,二者门户网站的数据组织与查询功能也相对完善。从以上对Data.gov和Data.gov.uk数据组织和浏览、检索功能的分析,我们不难看出它们的一些特点。通过关联数据的RDF技术有效地解决了复杂多样的数据资源的描述和表示问题,降低了政府数据门户网站语义组织工作的难度。政府数据门户网站数据类型复杂多样,首先要制定统一的分类标准和索引机制进行描述、标引、分类和组织,以屏蔽不同实体对网站数据组织的差异性。......
2023-11-22
美国和英国政府数据门户网站Data.gov和Data.gov.uk均是数据可自由获取、公众与政府机构互动的、API接口开放的数据共享平台。共享平台的科学数据组织就是对平台的数据资源进行选择、描述、整合和存储,提供有序化的结构并形成一个有机整体的过程,以便对数据资源进行存取和利用。我们主要从数据描述与分类的角度调查英美政府门户数据网站数据组织的情况,从数据的检索方式角度调查两者的数据查询功能。
(1)元数据标准
元数据是关于数据的数据,它对数据对象进行描述,有助于用户发现、识别、评价、选择和使用数据资源,实现数据资源的整合、共享、管理和长期保存[99]。
Data.gov和Data.gov.uk中每一个数据集下均有相应的元数据著录,调查发现其元数据集复用了都柏林核心元数据集(DC),并在DC的基础上有一定扩展和补充[100]。由于网站的数据涉及学科领域范围广泛、数据发布者机构不同、数据量大、数据类型多样,因此其在DC的基础上分别制定了通用核心元数据标准、特定领域核心元数据标准。通用核心元数据标准为整个数据门户网站的数据资源提供一套通用的描述元素与规范。其中,元数据必选元素包括标题、摘要、关键词(标签)、更新日期、机构名称、联系人及其人邮件、唯一标识符;特定领域必选元数据元素包括数据字典(Data Dictionary)、URL、可获取端点、格式、数据集开放许可、地理范围、时间范围等;元数据可选元素包括发布日期、发布频次、数据质量、所属类别、相关参照等。
特定领域元数据标准是基于通用核心元数据标准的扩展标准,以满足特定学科和领域的特定需求。我们选取了Data.gov和Data.gov.uk中数据集较多的地学、海洋学领域,对其元数据调查发现,地学和海洋学的核心元数据集增加了空间(Spatial)、东经(Bbox East Long)、西经(Bbox West Long)、北纬(Bbox North Lat)、南纬(Bbox South Lat)等描述空间属性的地理坐标元素,这也是地学和海洋学科学数据的特征所在。另外,Data.gov的部分数据集还提供了机构或部门提交时的元数据描述信息,在一定程度上丰富了元数据信息。
(2)数据分类体系与浏览方式
美国Data.gov。数据分类体系是对数据共享平台收集的科学数据资源实施分类组织和用户进行浏览和检索的依据与桥梁,通常提供类似目录式的结构进行浏览。从宏观的角度,Data.gov通过一套完整的元数据分类体系将网站中的各种格式的科学数据资源编制成三种分类类目,包括原始数据目录(Raw Data Catalog)、工具目录(Tools Catalog)和地理数据目录(Geodata Catalog)。并且这三个分类目录具有交叉,所包含的数据资源是可重复的,一个数据资源可存在两个以上的目录中。
从微观角度,Data.gov采用多种标准对科学数据资源进行分类与组织,提供了7种分类浏览方式。即:①数据集类型:分为地理空间数据集和非地理空间数据集,从侧面反映了地理空间数据集在Data.gov数据资源中占了最大部分;②标签方式:按照数据资源元数据中的标签分为气温、物理、海洋地质、风速、运输、气象等50类;③媒体类型/格式:按照数据集中数据的格式分为KML、TXT、ZIP、XLS、HTML、CSV、PDF等49类;④不同机构数据分类:将不同机构的相关数据整合在一个大主题之下,分为安全、研究、能源、农业、海洋、消费者、法律、生态、商业、制造业、金融、教育12个主题;⑤组织/机构的类型:分为联邦政府、大学、州政府、当地政府、非营利组织、合作组织、商业机构和其他8类;⑥组织/机构:按照数据集发布的组织/机构分为:美国国家海洋大气管理局、美国地质勘探局、新墨西哥大学地球数据分析中心、国防部等50个组织/机构;⑦主题类别分类:按照数据集所属主题的学科类别分为应用科学与技术、自然资源与环境、物理和海洋学、社会与行为科学、教育等50类,且类目是交叉的。
另外,Data.gov的多维数据分类体系还具有一定的“组配”性质,如可以选择组织类型与数据格式进行组配,浏览选定的组织和类型的科学数据资源。
英国Data.gov.uk。Data.gov.uk同样采用了多维数据分类体系,提供了6种数据浏览方式。即:①是否公开发布分类:根据数据集是否已经通过审核并公开发布分为已发布和未发布2类;②按照开放许可协议(Licence)分类:分为遵守开放政府许可协议、没有公布的数据集(Unpublished)、不遵守开放政府许可协议(Non-Open Government Licence)3类;③主题分类:按照数据集所属的主题领域分为环境、政府财政、社会、政府、教育、商业与经济等10类;④媒体类型/格式分类:按照数据的格式分为CSV、XLS、HTML、PDF、XML、RDF、ZIP、WMS、ODS、DOC共10类;⑤数据发布者分类:分为英国水文局、国家统计局、社区部门和当地政府、NHS健康和社会关怀信息中心、北爱尔兰空间数据中心等10类;⑥开放程度分类:按照对数据集开放程度的评价分为五星、三星、二星、一星和无星5类。
同样,Data.gov.uk的数据分类体系也具有一定的“组配”性质,如可以使用开放许可、主题、数据类型三种标准进行组配,浏览同时符合标准的科学数据资源。
(3)数据检索功能
数据检索功能直接影响到用户对政府数据门户网站数据服务功能的体验,我们从检索途径、检索结果输出与排序方式两种角度考察这两个网站的查询功能。(www.chuimin.cn)
①检索方式。
美国Data.gov。Data.gov提供了两种检索方式。一是主题检索,用户在检索框中直接输入所需查询的信息即可,得到检索结果后还可以根据界面左侧的分类浏览体系选择数据格式、机构等进一步精炼检索结果。二是浏览检索,Data.gov可以提供基于数据集类型、标签、媒体格式、主题、组织/机构的类型、组织/机构、学科领域共7种方式的浏览检索。
另外,Data.gov提供了基于地理位置的浏览检索。用户首先从地理位置(直接输入地理名称或使用地图上的绘制矩形工具在地图上绘制地理范围)入手查找相关的科学数据资源,然后还可以使用主题检索实现二次检索,精炼检索结果。并且,用户输入地理名称的前3个字母之后,检索框中会有相应的检索词汇的提示,用户可以直接选择所需的检索词。
英国Data.gov.uk。同Data.gov一样,Data.gov.uk也提供了两种检索方式,一是主题检索;二是浏览检索。不同之处是,Data.gov.uk提供基于公开发布与否、开放许可、主题、资源格式、发布者、开放程度这6种方式的浏览检索。
Data.gov.uk提供了基于导向式的地理位置浏览检索方式,在用户检索的界面中有相应的步骤提示。用户可以直接输入地理名称、邮政编码或地理坐标,也可以使用绘制工具绘制地理范围实现简单检索,同Data.gov一样,Data.gov.uk也可实现二次检索。另外,Data.gov.uk还提供了检索帮助信息,帮助用户快速地使用基于地理位置的浏览检索。
②检索结果输出与排序方式。
政府数据门户网站提供的检索结果输出与排序方式也是衡量网站查询功能的一个重要方面。检索结果的输出格式按详略通常分为简单格式和详细格式[101]。Data.gov和Data.gov.uk输出结果均为简单格式,包括标题、摘要、媒体格式以及所属机构(分为联邦政府、州政府和大学等),其中Data.gov.uk输出结果中还包括了数据集所属的主题领域。在检索结果的排序方式上,二者均提供了相关性、标题名称、最新更新和热门程度四种排序方式,Data.gov和Data.gov.uk默认排序方式分别为按相关性和按热门程度排序。另外,Data.gov.uk在地理位置浏览检索结果中提供了按地理位置排序方式。
(4)关联数据
基于关联关系发布和组织数据资源,可大大提升数据资源的价值,如将有关医疗健康的政府数据与地区的人口、环境等数据关联起来,可以对医疗投入的效率进行评估。
①美国Data.gov。2010年,Data.gov引入了关联数据技术组织数据资源,目前已经发布了50亿个三元组,主题涉及政府支出、环境、统计数据等[102]。Data.gov发布关联数据主要分为四个步骤,第一,URI命名。URI中通常包括3种标识符,提供机构标识符、数据集标识符和数据集版本。第二,转换。采用一定的工具如Krextor或程序将XML、CSV等不同格式转换成以RDF表示的数据。第三,发布。发布包括提供RDF转存文件的方式、提供多种格式的下载、存储在RDF三元组存储器中和以可解析URI的方式被关联数据应用获取。第四,关联。包括数据集内部及与外部数据集关联关系的组织与构建,如通过owl:sameAs属性将Data.gov的数据资源与外部关联数据集如Dbpedia、Geonames中数据资源链接在一起。
②英国Data.gov.uk。Data.gov.uk在建设之初就致力于采用W3C标准特别是关联数据标准和方法在网上发布和组织政府数据,其中最主要的两个应用领域是统计数据和地理空间数据[103]。Data.gov.uk在使用关联数据发布和组织数据时,特别强调URI的设计、版本的控制和溯源信息的提供。Data.gov.uk根据实体的类型,设计了4种主要的URI模式,如文档的URI模式为http://{sector}.data.gov.uk/doc/{concept}[/{identifier}]。还为URI制订了一些指导原则,如在设计时要考虑URI持久性的问题,尽量使用URI内部的自然标识符等。另外,用户不仅可以通过SPARQL还可通过RESTful APIs获取关联数据。
有关科学数据管理与共享的理论与实践的文章
英美政府最先启动了数据门户网站,二者门户网站的数据组织与查询功能也相对完善。从以上对Data.gov和Data.gov.uk数据组织和浏览、检索功能的分析,我们不难看出它们的一些特点。通过关联数据的RDF技术有效地解决了复杂多样的数据资源的描述和表示问题,降低了政府数据门户网站语义组织工作的难度。政府数据门户网站数据类型复杂多样,首先要制定统一的分类标准和索引机制进行描述、标引、分类和组织,以屏蔽不同实体对网站数据组织的差异性。......
2023-11-22
由于私募股权需要同投资者直接会面、签署合约,投资人数通常较少,是由数个股份占比较大的投资者完成投资。图4.9CNKI—框式检索检索方式七:期刊导航①进入:点击首页的“期刊导航”或检索页面的“期刊导航”,进入图4.10所示的导航页面。如果不能正常打开下载的文件,需安装新版CNKI E—Study。......
2023-08-01
图6-3越南快讯网主页导航栏越南快讯网主页栏目齐全、内容丰富。根据Alexa.com网站最新统计,越南网访问量全球排名第1138位,在越南国内网站中排第11位,是越南最受欢迎的门户网站之一。......
2023-08-16
图6.2时间属性影响程度时空立方体模型是时空数据模型的一种,其包含了时间、空间和属性三个基本特征信息。基于时空立方体模型的数据组织流程为:用三个数据表分别存储时间属性数据、空间属性数据和犯罪属性数据,并且犯罪属性数据中包含犯罪事件的时间信息和空间点位置信息,通过其时间信息可关联到对应的时间属性数据,通过空间点位置信息可查询到对应的调查区以关联到空间属性数据,而临近区域犯罪数则通过实时计算获得。......
2023-06-15
数据备份与恢复功能又分为软元件数据的备份、恢复及锁存数据的备份。当M103继电器导通时,D80~D89数据恢复。2)X20置为ON,锁存数据备份进行。图8-22 锁存数据的备份恢复备份数据数据备份恢复时,CPU模块上的BAT.LED灯亮约5s后熄灭。SM676状态为OFF时,CPU模块重启,备份数据恢复动作只是执行一次。......
2023-06-16
高校图书馆应注重数据库检索的应用培训服务邓 芳[摘 要]大数据时代,高校图书馆应注重开展数据库检索培训。通过实际调查和实践证明高校图书馆数据库检索培训的必要性。大数据时代对人们数据使用能力提出了巨大的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。如何获得和使用大数据将是大数据时代的主要问题。在大数据时代,世界各国都非常重视信息素养教育。......
2024-08-31
美国地质勘探局:是美国内政部所属的科学研究机构,提供最新、最全面的全球卫星影像,包括Landsat、MODIS等。中国遥感数据网:中国遥感数据网是遥感地球所为实施新型的数据分发服务模式,面向全国用户建立的对地观测数据网络服务平台。Google Earth Engine:谷歌地球引擎包含超过200个公共的数据集,超过500万张影像,每天增加大约4000张影像,容量超过5PB。能够存取卫星影像和其他地球观测数据库中的资料,并且可提供足够的运算能力对这些数据进行处理。......
2023-06-15
相关推荐