2017年软件工程论文专集-档案数据特征分析

2023-10-21 理论教育版权反馈

【摘要】：为了解决绝大多数目前频繁使用的档案数据库的快速信息查找与抽取问题，需要对此类数据库进行分析，以便从中发现解决问题的方法。

为了解决绝大多数目前频繁使用的档案数据库的快速信息查找与抽取问题，需要对此类数据库进行分析，以便从中发现解决问题的方法。经对常见的关系型档案数据库表结构解析，比如社会公共信息档案数据，其具有如下主要特征。

1.2.1　主键编码稳定且唯一

根据国家有关法律法规，法人和自然人均使用全国统一赋码的18位代码作为身份识别的编码，一个主体只能拥有一个统一代码，一个统一代码只能赋予一个主体。并且统一代码一经赋予，在其主体存续期间，主体信息即使发生任何变化，统一代码均保持不变[2]。

1.2.2　以结构化数据信息为主

社会公共信息档案数据源于各个主管部门已有的信息管理系统，如工商部门的企业注册登记信息、公安部门的行驶证登记信息以及医疗单位的治疗记录信息等。这些数据均是关系型数据库的产品，通常情况下都是结构化的数据信息。(www.chuimin.cn)

1.2.3　数据来源繁多，类别与结构复杂

档案数据归属于多头采集且部门繁多，各领域、各系统都具有不同的业务规范和数据标准，导致档案数据资源目录的元数据名称、格式、标准、长度、类型千差万别，本质上具有分布式数据库的主要特征。

以上海市某资源目录为例，资源目录共有5198个事项，字段最多的资源目录事项有34个字段，最少的有8个字段；另外，除国家制定的少量特殊数据之外，没有一个资源目录事项的字段是一致的。