首页 理论教育解析标签体系及人物基础属性

解析标签体系及人物基础属性

【摘要】:父标签和叶子标签共同构成标签体系,但两者是相对概念。正中间则是永恒不变的“人物基础属性”。所谓人物基础属性指的是:用户客观的属性而非用户自我表达的属性,也就是描述用户真实人口属性的标签。

标签是某一种用户特征的符号表示,有两个重要特征:一是它要具有一定的种群性,须在一定程度上抽样与归纳事物的特征;另一个特征是,它是使用符号来表示用户的一类特征,这个符号可以是中文,也可以是数字。用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理。

用户画像主要来源于标签的描述与刻画,合理准确的构建标签体系显得十分重要。从原始数据到最终的业务标签,从数据清洗到数据挖掘与机器学习,让建模方法能做到理解、了解人,并且从中得到归纳。参考许多案例与企业实践文档,本书认为标签体系应该具备如图9-1所示的层级结构。

图9-1 标签体系建立来源层级图

标签是某一种用户特征的符号表示,是一种内容组织方式,是一种关联性很强的关键字,能方便地帮助人们找到合适的内容及内容分类。它解决的是描述(或命名)问题,但在实际应用中,还需要解决数据之间的关联,所以通常将标签作为一个体系来设计,以解决数据之间的关联问题。一般来说,将能关联到具体用户数据的标签,称为叶子标签。对叶子标签进行分类汇总的标签,称为父标签。父标签和叶子标签共同构成标签体系,但两者是相对概念。例如,表9-1中,地方、型号在标签体系中相对于省份、品牌,是叶子标签。

表9-1 多级标签表

用户画像标签体系创建后一般要包含以下几个方面的内容:标签分类、标签级别、标签命名、标签赋值、标签属性。

用户画像标签可以大体分为基础属性标签和行为属性标签。由于基于一个目标的画像,其标签是在动态扩展的,所以其标签体系也没有统一的模板,在大分类上,与自身的业务特征有很大的关联,在整体思路上可以从横纵两个维度展开思考:横向是产品内数据和产品外数据,纵向是线上数据和线下数据。正中间则是永恒不变的“人物基础属性”。如果说其他的分类因企业特征而定,那么只有人物特征属性是各家企业不能缺失的板块。所谓人物基础属性指的是:用户客观的属性而非用户自我表达的属性,也就是描述用户真实人口属性的标签。所谓非“自我表达”,举例来说,某产品内个人信息有性别一项,用户填写为“女性”,而通过用户上传的身份证号,以及用户照片,用户购买的产品,甚至用户打来的客服电话,都发现该用户性别是“男性”,那么在人物基础属性中的性别,应该标识的是“男性”。

标签分级有两个层面的含义:其一是指标到最低层级的涵盖的层级;其二是指标的运算层级。标签从运算层级角度可以分为三层:事实标签、模型标签、预测标签。事实标签是指通过对于原始数据库的数据进行统计分析而来的,比如用户投诉次数,是基于用户一段时间内实际投诉的行为做的统计;模型标签是指以事实标签为基础,通过构建事实标签与业务问题之间的模型,进行模型分析得到。比如,结合用户实际投诉次数、用户购买品类、用户支付的金额等,进行用户投诉倾向类型的识别,方便客服分类处理;预测标签则是在模型的基础上做预测,比如针对投诉倾向类型结构的变化,预测平台舆情风险指数。

标签属性可以理解为针对标签进行的再标注,这一环节的工作主要目的是帮助内部理解标签赋值的来源,进而理解指标的含义。一个明确的标签体系大致有五种属性:

①固有属性,是指这些指标的赋值体现的是用户生而有之或者事实存在的,不以外界条件或者自身认知的改变而改变的属性,比如性别、年龄、是否生育等;

②推导属性,由其他属性推导而来的属性,比如星座可以通过用户的生日推导,而品类偏好则可以通过日常购买来推导;

③行为属性,产品内外实际发生的行为被记录后形成的赋值,比如用户的登录时间,页面停留时长等;

④态度属性,用户自我表达的态度和意愿,比如通过一份问卷向用户询问一些问题,并形成标签,如询问用户是否愿意结婚,是否喜欢某个品牌等;当然在大数据的需求背景下,利用问卷收集用户标签的方法效率显得过低,更多的是利用产品中相关的模块做了用户态度信息收集;

⑤测试属性,来自用户的态度表达,但并不是用户直接表达的内容,而是通过分析用户的表达,结构化处理后,得出的测试结论;比如,用户填答了一系列的态度问卷,推导出用户的价值观类型等。