AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, Jian Tang
Peking University, University of California, Montreal Institute for Learning Algorithms (Mila), HEC Montreal
https://arxiv.org/pdf/1810.11921.pdf
点击率 (CTR) 预估旨在预测用户点击广告或项目的概率,该任务对于在线应用,比如在线广告和推荐系统,至关重要。该问题非常具有挑战性,因为
(1) 输入特征(例如用户 ID、用户年龄、项目 ID、项目类别)通常比较稀疏,并且维度较高
(2) 有效的预测依赖于高阶组合特征,即交叉特征,这种特征依赖于领域专家的手工设计,非常耗时,并且不可能枚举。
因此,研究人员不仅试图寻找两类特征的低维表示,即稀疏和高维原始特征,以及有意义的组合特征。本文提出了一种高效算法,该算法能够自动学习输入特征的高阶特征组合。该算法非常通用,不仅可以处理数值类型的特征,也可以处理类别型特征。具体来说,该方法将数值和类别型特征映射到相同的低维空间。然后,提出了一种具有残差连接的多头自注意神经网络,进而对低维空间中的特征交互进行显式建模。多头自注意神经网络的不同层,可以对输入特征不同阶的组合进行建模。
整个模型可以端到端地有效地适应大规模原始数据。在四个真实数据集上的实验结果表明,本文方法不仅优于现有的预测方法,而且具有较好的可解释性。
本文贡献可以总结为
本文模型结构图示如下
输入层及嵌入层图示如下
交互层结构图示如下
数据集信息统计如下
多种方法的效果对比如下
多种方法的效率(运行时间)对比如下
多种方法的效率(模型规模 参数个数)对比如下
有无残差连接对模型效果的影响如下
交互层数的影响如下