阿里DIN模型


论文背景

2018年 阿里

现有问题

目前的深度学习模型都是先将稀疏输入特征映射为低维嵌入向量,再转换为固定长度的向量,最后联结起来送入MLP。这个固定长度的向量会成为瓶颈,无法从历史行为中捕获用户不同的兴趣。因此,本文提出深度兴趣网络Deep Interest Network(DIN)。它设计了一个局部激活单元从用户历史行为中自适应学习用户兴趣。另外,本文提出了两大技术:小批量感知正则化(mini-batch aware regularization)和数据自适应激活函数(data adaptive activation function)。

关键词

点击率预测(Click-Through Rate Prediction)、展示广告(Display Advertising),线上贸易(E-commerce)

引言 INTRODUCTION

Embedding & MLP方法通过将用户行为嵌入向量转换为一个固定长度的向量来学习用户所有兴趣的表示,所有的表示向量是欧式空间。换言之,将用户不同的兴趣压缩到一个固定长度的向量,限制了表达能力。为了更好地表达用户不同兴趣,就要扩展向量长度。这会增多学习参数,并且增加过拟合的风险。也加重了计算和存储的压力,对于工业线上系统来说很困难。
另一方面,没有必要把用户全部兴趣压缩到同一个向量里,因为只有部分兴趣会影响用户下一个动作(点击或不点击)。

训练的问题:
基于SGD的优化方法只更新出现在每个小批量中的稀疏特征的参数。然而,加上传统的ℓ2正则化,计算变得不可接受,这需要为每个小批量计算整个参数的L2范数(在阿里的场景,大小按比例增加到数十亿)。本文提出了一种新的小批量正则化方法,在L2范数的计算中,每个小批量正则化中只出现非零特征参数,使得计算是可接受的。另外,设计了一个数据自适应激活函数,推广到常用的PReLU,它通过自适应地调整输入的校正点,也就是输入的分布,并被证明有助于训练具有稀疏特征的工业网络。

贡献点

  1. 指出了使用固定长度向量来表达用户不同兴趣的局限性,并设计了一种新的深度兴趣网络(DIN),它引入了一个局部激活单元来自适应地从给定广告的历史行为中学习用户兴趣的表示。DIN可以大大提高模型的表达能力,更好地捕捉用户兴趣的多样性特征。
  2. 开发了两种新的技术来帮助训练工业深度网络:I)一种小批量感知正则化器,这种正则化器在具有大量参数的深度网络上节省了大量的正则化计算,并且有助于避免过拟合;ii)一种数据自适应激活函数,这种函数通过考虑输入的分布来推广PReLU,并且表现出良好的性能。
  3. 在公共数据集和AI-ibaba数据集上进行了大量实验。结果验证了所提出的DIN和训练技术的有效性。所提出的方法已经在全球最大的广告平台之一阿里巴巴的商业展示广告系统中得到了应用,为业务的发展做出了重大贡献。

代码:https://github.com/zhougr1993/DeepInterestNetwork

背景 BACKGROUND

图1 - 阿里广告系统
图1 - 阿里广告系统
,预测每个给定广告的点击率,然后选择排名最高的广告。

# 深度兴趣网络 DEEP INTEREST NETWORK
## 特征表示 Feature Representation

表1 - 特征处理
表1 - 特征处理
特征表示
特征表示

表中描述了我们系统中使用的全部特征集,它由四类组成,其中用户行为特征是典型的多热点编码向量,包含丰富的用户兴趣信息。注意,在我们的设置中,没有组合特性。我们利用深度神经网络捕获特征的交互作用。

基线模型 Base Model(Embedding&MLP)

基础架构 vs DIN架构
基础架构 vs DIN架构

嵌入层(Embedding layer)

池化层和连接层(Pooling layer and Concat layer)

MLP

Loss

未完待续..