首页 理论教育高校图书馆大数据应用:构建创新知识库

高校图书馆大数据应用:构建创新知识库

【摘要】:构建创新知识库,辅助创新实践选题。图9.1面向大学生创新实践活动的图书馆大数据服务模式近年来兴起的语义网和关联数据技术为数据的融合和检索提供了强大的技术支撑。语义网技术由万维网联盟W3C提出,以图为数据结构描述现实世界中的实体和链接关系。数据关联技术以语义网为基础,基于资源描述框架的组建规则,将各种异构的数据库有机链接起来,构建成语义关联的大数据。

构建创新知识库,辅助创新实践选题。创新知识库是大学生创新实践活动过程中用于检索和查询的数据库。在创新实践选题阶段,及时、精准获取创新实践活动相关的历史研究资料、当前研究动态和研究前沿非常重要。大数据环境下,需要从包括互联网资源、各数据库商的电子资源以及图书资源等多来源和多格式的数据中获取信息,并有效融合构建成为统一的结构化知识库,以供检索和查询。

图9.1 面向大学生创新实践活动的图书馆大数据服务模式

近年来兴起的语义网和关联数据技术为数据的融合和检索提供了强大的技术支撑。语义网技术由万维网联盟W3C提出,以图为数据结构描述现实世界中的实体和链接关系。数据关联技术以语义网为基础,基于资源描述框架的组建规则,将各种异构的数据库有机链接起来,构建成语义关联的大数据。数据关联技术能够有效消除数据库中的冗余信息,并适合快速查询和精准检索。

创新素材收集和创新知识整合。创新知识库的数据来源包括学科专业数据库、在线百科、Web页面等。学科专业数据库是指通过签约方式(如中国知网、万方)获得使用权限的数据库,或者各图书馆自建的专业数据库(如本科生、研究生的毕业论文库,或通过网络爬虫实时爬取并结构化的专利库、各类学科竞赛的历年题库和解答等);在线百科是由相关领域专家编辑并反复完善而构建起来的有一定权威的知识库,库中包含大量结构化的学科知识,如百度百科、维基百科等;Web页面数据来源于互联网网页,包括文本、图片及音视频等海量信息(如各类创新实践项目的官方网页,学科竞赛相关报道等)。由于上述数据的多源、异构以及收集过程中难以避免的错误,这些数据在一定程度上含有“噪音”,容易出现冗余或缺失。ETL工具能够检查数据,并对数据去重、去错,以高效完成数据清洗。