KDD-Cup2012-Track2

Paper paper KDD

发布时间 : 2019-06-20 14:02

字数:709 阅读 :

KDD-Cup2012-Track2

KDD-Cup2012-Track2

A Two-Stage Ensemble of Diverse Models for Advertisement Ranking in KDD Cup 2012

问题描述

一次会话是指用户和搜索引擎的互动，即一次查询操作。会话包括：用户、搜索内容、搜索引擎搜到的广告、搜索引擎呈现给用户的广告、用户点击的广告（0条或者多条）、搜索会话的深度是指：搜索引擎呈现给用户的广告的数量；广告的位置/position（排名、rank）是指该广告在呈现给用户所有广告中的排名，呈现给用户的所有广告都会生成一个短文本，即广告的标题，标题后面紧跟着一个长文本（即：广告的描述）和一个URL（URL通常被缩短以节省屏幕空间）。

训练集

测试集中的每行数据都有12个，含义依次如下：

Click: 用户（UserID）点击广告（AdID）的次数
Impression: 广告(AdID)呈现给用户（UserID）的次数(每次查询只会呈现一次)
DisplayURL: URL总是随着标题和描述出现，在文件中，URL是匿名的哈希值
AdID: 广告id
AdvertiserID: 广告商id
Depth: 一次会话呈现给用户的广告数量
Position: 广告在返回给用户广告列表的index
QueryID: 搜索id，从0开始的整数，是queryid_tokensid.txt的主键
KeywordID: 关键词id，buyingkeyword_tokensid.txt的主键
TitleID: titleid_tokensid.txt的主键
DescriptionID: descriptionid_tokensid.txt的主键
UserID: userid_profile.txt的主键，当无法识别用户时，此字段的值为0。

注：要预测的是 $\frac{Click}{Impression}$ ，后面二分类的时候，把Click当成正样本集，Impression-Click 当作负样本集

其他附属文件

queryid_tokensid.txt
buyingkeywordid_tokensid.txt
titleid_tokensid.txt
descriptionid_tokensid.txt
userid_profile.txt

对于前4个文件，每一行都是 id query|keyword|ad title|ad description的格式,这些数据可能是自然语言，在文件中都用其哈希匿名化。
‘userid_profile.txt’的每一行由UserID，Gender和Age组成，由TAB字符分隔。注：并非训练和测试集中的每个UserID都将出现在’userid_profile.txt’中。每个字段描述如下：

Gender: '1' (男) '2'(女) '0'(unknow)
Age:  '1' for (0, 12],  '2' for (12, 18], '3' for (18, 24], '4'  for  (24, 30], '5' for (30,  40], and '6' for greater than 40.