首页 理论教育优化基础数据采集及处理方法

优化基础数据采集及处理方法

【摘要】:用户画像涉及大量的数据处理和特征提取工作,往往需要用到很多数据源,且多人并行处理数据和生成特征。在基础数据采集方面,可以通过列举法,先列举出构建用户画像所需要的基础数据。图9-2用户数据图静态信息数据为用户相对稳定的信息,主要包括人口属性、商业属性等方面数据。数据采集完后还要对其进行处理,主要是清洗无用数据,并将获取的数据进行规范化处理,使之可以在分析建模中可以直接被应用。

用户画像涉及大量的数据处理特征提取工作,往往需要用到很多数据源,且多人并行处理数据和生成特征。数据不说谎,数据是构建用户画像的核心依据,建立在客观数据基础上的用户画像才是有说服力的。在基础数据采集方面,可以通过列举法,先列举出构建用户画像所需要的基础数据。构建用户画像是为了还原用户信息,因此数据来源于所有用户相关的数据。对于用户相关数据的分类,引入一种重要的分类思想,即封闭性的分类方式。如,世界上分为两种人:一种是学英语的人,一种是不学英语的人;客户分三类:高价值客户,中价值客户,低价值客户;产品生命周期分为:投入期、成长期、成熟期、衰退期;所有的子分类构成了类空间的全部集合。

这样的分类方式有助于后续不断枚举并迭代补充遗漏的信息维度,不必担心架构上对每一层分类没有考虑完整而造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景和业务需求的不同,按需划分即可。参考相关案例及推荐,可以将用户数据划分为静态信息数据、动态信息数据两大类。

用户数据分类如图9-2所示。

图9-2 用户数据图

静态信息数据为用户相对稳定的信息,主要包括人口属性、商业属性等方面数据。这类信息自成标签,如果企业有真实信息则无须过多建模预测,更多的是完成数据清洗工作。动态信息数据为用户不断变化的行为信息,广义上讲,一个用户打开网页或买了一个杯子与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等一样都是用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如图9-2所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞双十一大促给力的微博消息等均可看作互联网用户行为,本书仅以互联网电商用户为主要分析对象,暂不考虑线下用户行为数据。

数据采集完后还要对其进行处理,主要是清洗无用数据,并将获取的数据进行规范化处理,使之可以在分析建模中可以直接被应用。