首页 理论教育科学数据管理:主要研究发现

科学数据管理:主要研究发现

【摘要】:表2-1国内科学数据研究论文的高频关键词将48个高频关键词两两组合,统计其在582篇文献中共现的次数,形成48×48的共词矩阵,如表2-2所示。由于科学数据共享本身出现的频次远远高于其他关键词,因此,科学数据共享与其他关键词在同一篇文献中共现的概率也是最高的。例如,在因子3中的“关联规则”是负值,这表明关于科学数据监护与服务的研究可能涉及关联规则方面的问题,但还是比较少。

(1)获取的高频关键词及构造的共词矩阵

通过对582篇文献的关键词进行词频统计,共获取1 193个关键词。按照词频由高到低进行排序,并截取词频不小于5的48个高频关键词作为共词分析的基础(见表2-1)。可以看出,“科学数据共享”和“科学数据”是出现最为频繁的关键词,其频次远远高于排在第三的“元数据”。

表2-1 国内科学数据研究论文的高频关键词(频次>4)

将48个高频关键词两两组合,统计其在582篇文献中共现的次数,形成48×48的共词矩阵,如表2-2所示(因版面所限,只列出共词矩阵的局部)。由于科学数据共享本身出现的频次远远高于其他关键词,因此,科学数据共享与其他关键词在同一篇文献中共现的概率也是最高的。

表2-2 国内科学数据研究论文高频词的共词矩阵(部分)

(2)因子分析结果

通过因子分析,最终可得到主成分列表。图2-1中列出了部分主成分,将其按特征根从大到小排列,放弃特征值小于1的主成分,前8个主成分解释了总变量的89.893%,其中仅前3个主成分的信息解释量就达到了63.914%。表2-3显示了因子载荷大于0.5的关键词在8个因子(主成分)中的分布情况。

表2-3 因子分析确定的科学数据研究主题结构(www.chuimin.cn)

续表

图2-1 因子数与涵盖的信息量

结合图2-1和表2-3,因子分析的结果如下:

①因子命名。大部分关键词都归于相应的因子,只有1个关键词“云计算”,由于其载荷系数小于0.5而未能参加分类,说明这一关键词代表的主题较新,还没有很好地同其他研究方向相结合。根据因子载荷大于0.7就对因子解释有帮助的原则[84],并综合因子中其他关键词的属性,我们给8个因子依次命名为:科学数据共享和数据共享平台、科学数据组织与分类、科学数据监护与服务、科学数据整合、科学数据政策与开放获取、科学数据网格技术、科学数据挖掘、科学数据管理(见表2-3)。

②关键词跨区分布情况。共有4个关键词跨区分布。因子1和因子7中同时出现了科学数据共享平台,因子3和因子7中同时出现了科学数据管理,因子1和因子3中同时出现了数据服务,因子3和因子5中同时出现了关联数据。这表明上述的两两因子包含的内容相互渗透和交叉,有一定的相关性。

③关键词的因子载荷系数为负的分布情况。共有2个关键词的因子载荷系数为负,分别为“数据集成”(系数为-0.588)和“关联规则”(系数为-0.584),同相应的因子构成负相关关系,一般对此类因子不予考虑。例如,在因子3中的“关联规则”是负值,这表明关于科学数据监护与服务的研究可能涉及关联规则方面的问题,但还是比较少。