首页 理论教育影视数据用户画像分析

影视数据用户画像分析

【摘要】:影视用户画像系统的建立需要依赖于具体的应用场景以及所拥有的数据。用户画像系统架构如图9-6所示。基于Hadoop集群的大数据分析平台对用户行为日志经过清洗、规范化、分析与处理等步骤为用户标识相应权重的标签,实现为用户“画像”的目的。数据可视化模块将大数据平台中分析完成的结果进行展示,直观地看到用户的人画像,为决策起到辅助作用。

影视用户画像系统的建立需要依赖于具体的应用场景以及所拥有的数据。在此采用了某公司推出的一款互联网WiFi产品中采集的用户行为日志以及其他相关的用户信息作为源数据。该日志中包含了用户浏览部分影视内容核心页面的历史记录:用户MAC地址、访问时间、接入设备MAC地址、访问页面类型、页面URL、客户端类型等。由于用户行为日志中提取出的电影电视数据不足以支撑后续的分析与处理任务,需要通过添加辅助数据采集模块,采集相关的电影和电视节目表单数据作为用户行为日志的补充。依据用户行为日志中现有的数据信息补充日志中残缺的部分,所构成的完整数据集合提交给大数据处理分析平台进行处理分析。然后,通过可视化模块进行展示达到用户画像助力企业为用户进行推荐。

影视用户画像系统的整体架构分为四层:数据源层、数据采集层、基于Hadoop的大数据分析平台层、数据可视化层。基本流程为:数据采集层采集系统所需数据并将数据存入数据源层;大数据平台层由数据源层导入数据并且对数据进行分析与处理,将处理完成的结果导出到数据源层;数据可视化层从数据源层读取数据并将数据呈现在Web端页面供管理者参考。用户画像系统架构如图9-6所示。

图9-6 用户画像系统架构图

用户画像系统分为三大模块:数据采集模块、基于Hadoop集群的大数据分析平台、数据可视化模块。宏观上讲,数据采集模块主要用于补充用户行为日志中缺乏的电影数据、电视节目的相关数据以及源数据对接,使得数据集更加完备,为之后的分析与处理获得全面且合理的数据集做准备。基于Hadoop集群的大数据分析平台对用户行为日志经过清洗、规范化、分析与处理等步骤为用户标识相应权重的标签,实现为用户“画像”的目的。数据可视化模块将大数据平台中分析完成的结果进行展示,直观地看到用户的人画像,为决策起到辅助作用。

影视数据采集主要采集三个方面的数据:电影数据、电视数据以及源数据。电影数据来源于豆瓣网,电视数据和源数据主要是从第三方API接口定时通过爬虫爬取。数据可视化模块中,主要采用SSM框架商业级ECharts图表框架进行展示。