用户画像的方法
2018-05-23

加载中

来源:360图书馆

用户画像的方法

接下来基于上面提到的积累受众定向介绍一下用户画像的方法

我们能够看到用户画像其实也就是对于用户特征的提取,涉及到人口,设备,运营商,位置以及用户的浏览,点击购买等行为数据。用户画像是通过对用户特征的提取对用户行为进行定性和定量的描述,形成:【用户ID:用户标签:标签权重】形式的用户画像标签,在广告投放过程中,根据提取流量对应用户权重较高的若干个标签反向对广告主进行筛选,找出适合流量特点的广告素材。 用户标签用于广告主对于受众的选择,而权重用于在海量用户标签里选取重点的标签进行投放。

同时要注意用户的画像随时间的推移会有衰减,需要在用户画像的过程中考虑时间衰减的因素,因为用户的爱好和习惯会随着时间变长而有变化,同时数据的时效性也决定了用户画像的准确程度,进而影响广告的投放。

事实上在广告平台中收集到的最多的数据是用户的浏览数据,在拿到这么多的浏览数据的情况下,想要分析出用户的爱好和兴趣以及需求,那就需要对网页的内容进行分析和抽取,下面介绍一下用户画像中非常重要的行为标注部分的架构:

 

 

用户在浏览一系列网站的过程中是多少会带着一些目的性进行浏览的,即便是没有明确目的,也会带有一些个人喜好,有了这些目的和喜好,就会进一步缩短我们在推送广告过程中对于用户定向的选择难度。上图就是在上下文定向中对网页关键字提取的子系统的架构。【上下文定向】可以通过网页关键字提取,建立一个cache,根据URL建立对应标签,当广告请求到来时,命中相应URL则返回cache的命中内容,如果URL未缓存则返回空集合,同时将URL添加到后台抓取队列,在URL被抓取,并打上标签存入cache,为cache设置TTL,当长期不访问则将该URL的记录清楚,而热点内容URL的关键词是始终被缓存的,运行较长的时间则大多数热点URL大多会被缓存。在抓取到内容之后,需要对网页内容进行内容挖掘,在挖掘的过程中有以下几个方案可以被选取:

网页文本内容通过扩展语境,引入更多文本进行挖掘;利用语义分类树;建立主题模型。

我们在上面提到了在线广告的核心问题其实是找上下文,用户,广告三者之间的最恰当的匹配。

在展示类广告中比较重要的一个核心考核点就是点击率,因此点击率预测模块在DSP中是非常重要的部分

CTR预估涉及到三种角色:受众用户,媒体,广告主

预估的目标是为特定的受众用户再给定的媒体环境下找到最合适的广告,对媒体来说实现收入最大化,即按照eCPM排序的基本原则来排序。

最简单的CTR预估的模型,根据历史日志,统计出三个维度的CTR对照关系,预测过程中,当一个user访问特定url时,查询词典如果存在的CTR,则返回CTR**的ad,如不存在,则随机返回ad,积累后续数据。

存在问题:基于统计数据,对旧广告效果还可以,但对冷启动的广告没有预测能力。
事实上,我们在线上做点击率预测模型,使用的算法是逻辑回归,后续可能考虑会用到的广告点击率预测方法有:

  1. 机器学习方法:特征 模型 融合方案

  2. 协同过滤方法:看做推荐系统来处理

排序模型以预测结果为基础,广告排序模型有如下几种:

  1. 点排序(point-wise approach):变成分类问题或者回归模型来处理

  2. 对排序(pair-wise approach):比较两个广告谁的优先级高,不分类

  3. 列排序(list-wise approach):对整个广告候选集学习排序模型



暂无评论!
我要评论 只有购买过该商品的用户才能评论。
  • QQ咨询
  • 电话咨询
  • 400-680-9608