Bootstrap

三届(2012、2011、2009)KDD Cup内容、数据源和论文

  2012届KDD Cup

Track1任务:社交网络中的个性化推荐系统

根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表

Track2任务:搜索广告系统的pTCR点击率预估

提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况

数据集:http://www.kddcup2012.org/c/kddcup2012-track1/data

论文:http://www.kddcup2012.org/workshop

2011届KDD Cup

Track1任务:音乐评分预测

根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息

Track2任务:识别音乐是否被用户评分

每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名

数据集:http://kddcup.yahoo.com/datasets.php#

论文:http://kddcup.yahoo.com/workshop.php

2009届KDD Cup

法国电信运营商Orange的大规模数据中,积累了大量客户的行为记录。竞赛者需要设计一个良好的客户关系管理系统(CRM),用快速、稳定的方法,预测客户三个维度的属性,包括:1、忠诚度:用户切换运营商的可能性(Churn);2、购买欲:购买新服务的可能性(Appetency);3、增值性:客户升级或追加购买高利润产品的可能性(Up-selling)。结果用AUC曲线来评估

数据集:http://www.sigkdd.org/kddcup/index.php

论文:http://jmlr.csail.mit.edu/proceedings/papers/v7/

;