40亿移动设备的用户画像和标签架构实践2019-06-07 04:48

——

什么是画像呢?可能大家看到过一些外文资料或者演讲中出现过profile一词,其实和画像是一个概念,都是从不同的维度来表达一个人,这些维度可以是事实的,可以是抽象的;可以是自然属性,比如性别、年龄;可以是社会属性,比如职业、社交特征;可以是财富状况,比如是否高收入人群,是否有固定资产;可以是家庭情况,比如是否已经结婚,是否有孩子;可以是购物习惯,比如喜欢网购还是喜欢逛商场;可以是位置特征,比如在哪个城市生活;可以是其他行为习惯。总之,所有大家能想到的描述一个人的特征的都可以算作是画像的范畴,画像其实就是想方设法用数据来描述人的特征。画像有什么用处呢?大家之所以要进行用户画像,就是为了解决业务问题,或者为了拓展一个新用户,或者为了获得一个新订单。想要获得新用户,首先必须知道自己产品定位的用户画像(也就是用户长什么样子,有什么行为特征),而很多产品设计的时候可能由于定位不清晰,对用户的了解不够,导致最后产品上线后效果与预期大相径庭。这里举一个例子,A银行的电子支付团队计划与Uber公司合作,在春节后以短信推送优惠劵的方式进行营销,选择了多类人群进行投放,其中有有打车需求且有车和有打车需求且无车两类人群,本以为有需求且无车人群的广告触达的营销效果会更好,结果却完全相反,有需求且有车人群的广告触达的比例反而最高。这可能映射出无论是开车还是打车,习惯了车反而离不开车。用数据来画像正是帮助企业了解用户和定位产品的最直接的方法。综上我们可以看到要向更好的解决业务问题,首先必须明确业务目标,而用户画像是帮助企业明确目标客群的重要手段之一。当企业了解了自己的用户都长什么样子以后,接下来的任务就是如何将有类似画像特征人群的潜在用户变成自己的用户,也就是在营销上获新客的过程。所以,从大的框架来看,用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。如果仔细琢磨这两个目标,其实在根源上逻辑是有些相悖的。了解现有用户的画像,需要的是少量、画像特征覆盖度全面的无倾斜的精准样本,这样能更精确的定位产品的用户。而通过画像结果做广告营销获取新用户,在一定程度上需要的是大量的相似样本。量的大小和精准度的不同决定了后续画像模型在应用设计中的不同。提到用户画像就不得不提到一个词标签。标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。举个例子,如果一款卖男装的app想在近期做营销,只筛选男性和网络购物这两个标签进行投放,可能效果并不一定理想。因为性别(男/女)可能有多种维度,真实性别男女是一种维度,网络购物特征男女是一种维度,性取向男女可能又是另外一种维度。因为网络的发展,你甚至都不知道网络的另一端是不是一个人,更何况是男女呢。想要正确的设计标签模型和计算处理数据,必须了解画像标签应用的场景和目标。接下来如何进行用户画像呢?这完全取决于业务目标(需要什么样的画像标签)和有什么样的原材料(有什么类型的数据源),基于这两样才能确定使用什么样的模型设计和数据计算处理方式。就像做菜一样,要做一顿美味的晚餐,必须知道客户是想吃中餐还是西餐,配菜都有哪些鱼蛋肉和蔬菜,然后才能确定牛肉是红烧还是煎炸。如果业务是征信场景,想知道的是这个人的真实性别(男/女),在没有全量真实数据的前提下可以采取如下的方法来处理,可以选取少量真实样本,使用这些真实样本追加一些特征因子,使用lookalike算法进行样本扩展,将该少数样本特征扩展到大量或者全量数据。当然,这些数据的准确度取决于样本的均衡程度和算法的质量。如果业务是网络购物的电商场景,我们先不尝试判断真实购买男装的是否是男性(很多已婚人士是妻子负责网购丈夫的装备),仅仅考虑将来该网络账户实体是否会购买男装的角度考虑,需要的是男装购买倾向的标签,可以直接基于所有账户实体以往购买记录来计算处理该标签。一般标签计算无外乎以上过程,以大学生标签为例,假如我们需要针对移动终端人群设计一个大学生标签,而我们并没有每个大学生的入学信息和证件信息,我们该如何操作呢。首先进行业务分析,发现大学生的行为特征,一般大学生都会在大学校园内活动比较多,我们可以将全国2000多所高校的位置找到,根据移动终端设备的位置信息来筛选大学生人群;另外大学生可能还会使用一些特殊的app比如考研类、四六级、超级课程表等这些特殊app,我们可以通过app进行大学生人群的筛选。效果评估除了刚才说的真实case验证以外,还可以考虑外部标签的交叉验证,自有标签的交叉验证,比如:有已婚标签的,不可能是18岁以下人群;已婚标签的大学生人群也应该极少;大学生标签的人群有车标签的也应该很少。王鹏:说到这个问题,谈谈我对大数据的看法:我理解大数据本身不存在所谓的正确性,大数据是用来验证人的先验知识/经验的一种工具,这个里边应该考虑的不止是准确性的问题,而是如何能更好的提高你认为的准确率的问题,大数据由于体量大,需要的是数量、时间等多维的迭代,维度的扩展。

美高梅官网 Power by DeDe58 百度