本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
学界对社会网络的研究由来已久,已形成了大量的研究成果,即社会网络分析方法(Social Network Analysis,SNA)。当前,SNA是一种横跨社会学、心理学、经济学、信息科学和系统科学等多学科的研究方法,已成为一种重要的研究范式。与本研究密切相关的算法包括图数据挖掘算法和个性化推荐算法。
(1)基于社会网络的图数据挖掘算法。以图为数据结构来建模社会网络中不同类型的复杂关系,挖掘这些数据中隐藏的知识称为图数据挖掘算法。它可以归纳为图查询、图聚类、图分类和图的频繁模式挖掘四类算法,是当前人工智能和数据挖掘领域的研究热点。
图查询致力于从图数据库中找出与输入图(检索图)模式相同或相近的图,通过对图数据库或复杂的大图(包含大量的节点和边)进行查询,返回图中重要节点或节点间的关键特征;图聚类主要用于社会网络社区划分,是把图划分为若干子图(Sub-graph),在图的内部形成多个联系密切的节点集团,其特点是子图之间的边的权值之和尽可能小,而子图内部的边的权值之和尽可能大,子图(节点集团)体现某种特定的功能或形成网络社区;图分类首先通过挖掘特征子图来构建分类模型,再依据子图结构特征进行分类;图的频繁模式挖掘是从图数据集合(或图数据库)中寻找出现重现次数不少于最小支持度的子图结构。基于社会网络分析的图数据挖掘在网络社区划分、社会网络特性分析以及预测未来的社交行为等方面有着极其广泛的应用。
(2)社会网络个性化推荐算法。主要包括:
①基于内容的推荐:首先确立资源(如各类数据库)中内容(如数据库记录)的相似性计算规则,然后依据用户偏好,从资源中找出与用户偏好相似性较高的资源向用户推荐。
②基于协同过滤的推荐:分析用户偏好或兴趣,在用户群中找到与指定用户有相似兴趣的其他用户,将该用户感兴趣的内容向指定用户推荐(例如,甲和乙是好友,有共同兴趣或爱好,协同过滤理念认为,作为乙的好友,乙喜欢的物品甲可能也喜欢,从而将该物品向甲推荐)。
③混合推荐:基于内容的推荐方法和协同过滤推荐方法相结合,以提高个性化推荐的准确率。[11]在这三类主流的推荐算法中,可以根据社会网络分析相关算法(如图数据挖掘算法),挖掘用户兴趣和被推荐资源的相似度,再依据图或节点的特征和属性实现个性化推荐。[12]
图数据挖掘算法和个性化推荐算法是社会网络分析的两种重要算法,广泛应用于图书馆数据挖掘和知识发现,以及图书馆个性化信息推荐等领域。
2.社会网络分析方法在知识管理领域的研究
(1)知识组织。传统的分层知识结构难以有效反映组织内部复杂的知识流动脉络(如知识跨层流动),引入SNA方法能打破层级结构的限制,通过分析知识之间复杂网状关系,帮助构建知识地图,产生跨层级的知识关联和领域之间的概念映射,从而丰富知识之间的关联关系或关联脉络,促进知识组织的相关研究。SNA方法中的基于中心性和凝聚子群等网络分析算法,常用于知识组织的中心性特性分析,如在文献数据库中,基于SNA方法的核心文献、核心作者和核心期刊的分析和挖掘,有助于对知识地图网状组织的理解。
(2)知识构建。通过将知识(如概念或实体)或个体行动者(如研究者)作为节点,相互关联关系作为边,构建成语义网和社会网络模型,应用SNA方法分析节点之间的连接,采用如中心性分析等手段发现关键节点或重要路径,从而揭示知识构建过程中隐含的规律。
(3)知识检索。对“人”的认知管理(认知包括显性知识和隐性知识两类)是知识管理的主要内容之一。由于SNA方法在知识检索中注重导入“人”与知识的互动关系,如通过复杂社会网络的时序挖掘、中心性演化等分析技术的应用,从而助力隐性知识向显性知识转化。
(4)知识发现。通过图聚类和凝聚子群及其关联关系分析等手段,SNA可以从基于网络结构和基于内容的语料挖掘两个不同层面,发现知识群落及其子群组成成员关系以助力知识发现,具体方法包括引文分析、链接分析和合著分析等。
(5)知识分享。目前学界主要集中在组织内部和组织之间的显性知识和隐性知识分享和传播研究。由于隐性知识在获取方面存在困难,所以可沿着网络节点(如研究者)之间的关联脉络分析,提供基于社会网络环境下的显性知识和可获得的隐性知识的分享和传播途径。
由于社会网络的社会化特征能有效展现研究对象(如机构)的内部知识分布、交流的网络结构特点,并通过大量的算法定量分析来探究机构的知识组织、构建、检索、发现和分享过程的规律,因而使得SNA成为研究知识管理的重要工具。
有关高校图书馆大数据应用模式与实证研究的文章
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2023-07-24
究其原因,高校图书馆大数据应用正处于起步阶段,数据收集整合、数据分析和知识服务方法有待发展,相关技术有待突破;另外,高校图书馆数据量激增,海量存储的急切需求和计算设备性能的急待提高与资金投入受限也存在尖锐的矛盾。上述因素使得当前高校图书馆大数据应用陷入困境,阻碍了高校图书馆大数据服务的开展。大数据实时处理和高效分析是图书馆知识服务的前提,也是图书馆大数据应用落地的关键。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
国内外专家学者对图书馆电子资源使用统计进行了多角度的研究和应用尝试。国内学者的研究主要集中在应用领域。钟克吟[13]利用ASP技术开发图书馆电子资源读者访问流量统计分析系统来提高数字资源服务效益;王政军[14]提出基于旁路监听技术的图书馆数字资源绩效分析的设计思路和方案,通过记录用户对电子资源的访问下载情况而实施资源访问监控;周欣等[15]提出基于用户日志进行数据采集和数据挖掘的方法,构建用户行为分析系统模型。......
2023-07-24
大数据环境下个性化服务的研究引起学界重视。大数据技术的迅速发展以及图书馆个性化服务要求的不断提高,催生了大数据环境下个性化服务的研究,尤其是在关联数据技术与个性化服务结合方面取得了积极进展。以下结合大数据环境下个性化服务特征,讨论用户行为模型的构建策略。......
2023-07-24
Spark框架的软件栈如图2.1所示。Spark SQL是Spark用来操作结构化数据的程序包,支持多种数据源,主要用于查询数据。Spark Streaming的功能是对实时数据进行流式计算,如生产过程中的网页服务器日志或是网络服务中用户提交状态更新的消息队列等,Spark提供了该类操作的API接口,并与Spark Core中的RDD API接口相对应,这使得编程人员能方便操作内存、硬盘数据和实时数据流。......
2023-07-24
相关推荐