研究内容
利用BN(贝叶斯网)的概率推理算法定量地分析任意用户之间的相似性,从而针对特定的广告,获得没有历史点击记录的用户与存在历史点击记录的用户之间存在的广告搜索行为的相似性,进而预测没有点击记录的用户对广告的 CTR
(广告点击率)
- 构建用户相似模型(用户贝叶斯网
UBN
) - 用户贝叶斯网近似推理(发现相似用户)和CTR预测(预测未点击用户对广告的点击率)
- 在数据集
KDD CUP 2012-Track 2
上进行实验(构建用户贝叶斯网、近似推理/发现相似用户、预测CTR)
名词解释
CTR: 广告点击率
UBN: 用户贝叶斯网
章节安排
- 第一节给出构建用户贝叶斯网
UBN
的定义和构建方法 - 第二节给出
UBN
的近似推理算法和相应的CTR
预测方法 - 第三节给出实验结果
构建用户相似模型
定义用户和关键词集合
- 用户集合:$U=\{U_1,U_2,\cdots,U_n\}$
- 广告关键词集合:$K=\{K_1,K_2,\cdots,K_m\}$
- 搜索行为集合:$B=\{B_1,B_2,\cdots,B_n\}$
用户集合和搜索行为集合等长,$B$ 中的每一个元素代表一个用户的搜索关键词集合。
搜索行为集合中的每个元素都是一个集合,例如:$B_i=\{B_{i1},B_{i2},\cdots
,B_{il_i}\}$,表示用户一次搜索对应的关键词集合,称为搜索行为,$B_{ij} \in K$。
用户 $U_i$ 的搜索内容为: $C_i=< U_i,M_i >$, $M_i=\{B_{ij} | j=1,2,\cdots,l_i \}$。
注:$M_i$ 中, 原文中写的是
i
$ =1,2,\cdots,l_i $ ,我理解的是这里应该为j
。
例1:
用户 $U_i$ 的搜索行为集合为 $B_i=\{B_{i1},B_{i2},B_{i3},B_{i4}\}$ ,其中 $B_{i1}$ ,$B_{i2}$,$B_{i3}$,$B_{i4}$,对应的关键词分别为:$K_{1}$, $K_{2}$, $K_{3}$, $K_{4}$,则用户 $U_i$ 的搜索内容为 $C_i=< U_i,\{K_{1},K_{2},K_{3},K_{4} \} >$
定义UBN
用户贝叶斯网
:
- 节点:每个节点代表一个用户,用户集合 $U=\{U_1,U_2,\cdots,U_n\}$ 即节点集合,
- 边:有向边集$E$代表用户相似关系。若用户之间有边相连,则代表用户之间存在相似关系。用户相似度用 $sim(U_i,U_j)$ 表示:
$$
sim(U_i,U_j)=\frac {N(M_i \cap M_j)}{N(M_i \cup M_j)}
$$
设置相似度阈值 $\varepsilon$ ,若 $sim(U_i,U_j)>\varepsilon$, 则用户 $U_i$ 和用户 $U_j$ 之间存在一条无向边。 - 边的方向:针对任意两个有边相连的节点,计算这两个用户的搜索记录中,相同关键词占各自关键词的比例。用户 $U_i$ 对 $U_j$ 的依赖度用 $D(U_i|U_j)$ 表示,用户 $U_j$ 对 $U_i$ 的依赖度用 $D(U_j|U_i)$ 表示。
$$
D(U_i|U_j)=\frac{N(M_i,M_j)}{N(M_j)},D(U_j|U_i)=\frac{N(M_i,M_j)}{N(M_i)}
$$
如果 $D(U_i|U_j)>D(U_j|U_i)$,则表示$U_i$对$U_j$兴趣的依赖程度大于$U_j$对$U_i$兴趣的依赖程度。即 $U_j$ 指向 $U_i$,表示 $U_j$ 点击过的广告 $U_i$ 点击的可能性较大。
岳昆, 王朝禄, 朱运磊, 等. 基于概率图模型的互联网广告点击率预测[J]. 华东师范大学学报(自然科学版),
2013(3):15-25
.
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 changzeyan@foxmail.com