本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
图7.2最底层是图书馆大数据收集。外部行业动态、行业新闻等信息可通过Nutch、Heritrix等开源网络爬虫系统从互联网上采集,而图书馆内部产生的数据则可以通过Cloudera提供的Flume系统进行采集。Flume是一个开源的分布式海量日志收集系统,安全可靠,可以将用户的访问日志定期传送并保存到分布式存储中,以供后续跟踪和分析。
在图7.2的图书馆大数据存储层,Hadoop HDFS提供了最基本的持久化分布式文件系统。Hadoop HDFS适于存储数据查询和处理要求不高的信息,例如图书馆界近一年的重大新闻集合。对于高级应用开发,HBase和Mongo DB则提供了类似关系型数据库的功能。HBase的列式存储便于数据定义的随时更改,且适于大规模本体数据、知识库和知识图谱的存储、查询。Mongo DB的嵌入式文档则支持复杂的层级结构,为格式不一的各类社交文本大数据的存储提供了更高的灵活性。这使得应用开发者一开始并不一定要严格地定义用户访问日志格式,而可以随着应用需求的不断更新而变化。Redis、Berkeley DB和Memcached等支持非持久化的数据库,为HBase和Mongo DB数据库提供了缓存机制,可以大幅地提升智慧系统的响应速度,降低持久化存储的压力。
在图7.2的图书馆大数据处理层,Hadoop的MapReduce和Spark核心组件皆是为批量处理而设计,使用映射和规约的思想可以进行海量数据的分析和操作。比如,可以统计最近的行业新闻里发生了哪些重大事件,近期用户检索文献产生了哪些热门关键词。Spark SQL融合多数据源的不同格式结构化数据,对Spark数据执行类SQL查询,方便熟悉关系型SQL语言的使用者进行快速开发。另外,为了提供泛在性、实时性的图书馆智慧服务,还需要进行大数据实时处理,例如,新闻和用户行为往往都是实时发生的,若批量处理则延迟太高。利用Kafka消息机制,可以将数据的变化及时推送到各个数据处理系统进行增量更新。Spark Streaming则在映射和规约的思想基础上提供流式计算框架,进一步提升处理的实时性。
有关高校图书馆大数据应用模式与实证研究的文章
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
关键词:自建数据库 特色数据库 特色资源分类号:G250.74目前高校图书馆建设馆藏数字资源的方法主要有三种,一是购买成熟的大型商业性权威数据库;二是自组的网络信息资源;三是根据本校的学科专业特色自建专题特色数据库。在建设特色数据库时,应把握好以下几个原则。图书馆自行设计程序建立数据库选择哪一种程序语言取决于技术人员本身的编程基础。......
2023-11-30
编辑repo文件执行命令:安装执行命令:配置配置root密码:2.配置MariaDB用户及数据库创建用户并赋权假设数据库所在主机IP为192.168.1.2,执行命令:创建数据库3.安装Python3和依赖模块安装Python3执行命令:安装依赖文件执行命令:4.配置程序及运行配置。执行如下命令输入关键词文件的文件名“1.txt”。程序运行一段时间后,可在数据库本地记录查看爬取的学术文档数据。......
2023-07-24
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2023-07-24
所有的应用模式都是基于知识管理理论,并将知识管理过程中“知识生产、组织、构建、检索、发现、分享、应用和创新”的一系列过程凝练为“数据收集、整合与存储”“数据处理和分析”和“数据展现与服务”三个关键过程,并分别构建大数据应用子模式。表12.2图书馆大数据服务的对象、内容和大数据来源比较从表12.2的比较可以看出,在“数据收集、整合与存储”阶段,各类应用模式大都采用语义网和本体技术对大数据进行清洗和融合。......
2023-07-24
创新团队面临的问题包括:“信息过载”问题。期刊论文的标准格式和写作规范、专利和软件著作权的范例和模板以及结题报告的撰写规则等需要查阅大量的资料,在此基础上,创新团队需要将实践成果进行系统总结和理论提高后,才能形成有价值的学术文献。......
2023-07-24
利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2023-07-24
相关推荐