暑假期间阅读了很多比较新的推荐系统方向论文,于是把相关笔记挂出来。

传统模型

使用多种采样条件实现地点推荐1

拟解决的主要问题

基于地点的推荐已经是基于地理位置的社交网路的重要功能之一。很多地点推荐模型使用了额外的信息来提升推荐的性能,然而他们都只在负采样中使用了一种额外信息,而本文同时结合了地理影响和社交关联。

分析目前主流结合地理影响和社交关联的推荐方法时,主要发现了以下四个局限性

  • 局限一:负样本是通过均匀采样得到的。
  • 局限二:采样方法基于预先定义的地理环境采样方式。
  • 局限三:采样方法基于预先定义的社交关联采样方式。
  • 局限四:事先假设定义的采样方法不足以和多种额外信息进行灵活结合。

研究内容

采用多种采样条件的个性化排名框架

给定用户和地点,首先计算用户对于地点的偏好评分

为了解决局限一局限四,文中需要采样两个负样本,然后计算用户的偏好得分,然后条目三元组的排序函数如下

其中参数包含了矩阵因式分解方法中的。根据排序函数,可以定义似然函数求解参数

似然函数中的排序依据,如果,只需要调换即可。为了使得概率函数可微,使用sigmoid函数来表示。在对似然函数取对数以及增加正则化项之后,问题的优化目标就是

其中的排序分是由矩阵因式分解得到的

采用梯度下降方法对目标函数进行优化得到,算法的整体框架如下

基于地理影响的负采样条件

为了解决局限二,文中使用多中心高斯分布建模。给定地点和用户的中心集合,用户访问这个地点的概率为

  • ,是地点c_u$的倒数。
  • 中心访问频率影响的标准化。
  • 表示地点属于中心的概率,其中是高斯分布的概率密度函数,分别是中心附近地点距离的均值和方差。

每个用户的中心集合需要从用户访问记录中寻找,首先从访问最频繁的地点开始,将剩余地点距离小于的归为一个区域,如果整个区域的访问频率超过阈值,那么将其中访问频率最高的地点加入中心集合

基于社交关联的负采样条件

为了解决局限三,需要对社交关联进行建模。

  • 步骤一:社交聚集。给定用户和一个未访问过的地点,将用户好友的访问频率聚集
  • 步骤二:社交频率的分布。在实际环境中,社交访问频率符合幂定律分布,因此对应的概率密度函数为

其中可以通过访问记录矩阵和社交关系矩阵计算得到

  • 步骤三:社交关联得分计算。社交频率的概率密度函数是单调递减的,但是社交因素得分应当是单调递增,所以需要将概率密度函数进行积分

文章创新点

  • 提出了一个采用多种采样条件面向地点推荐的个性化排名框架,以此能够结合多种不同的额外信息。
  • 利用现存的概率模型进行负采样,也就是在采样负训练样本的时候考虑地理影响和社交关联的概率分布情况。

未来研究点

作者在论文中表示,未来将考虑使用概率模型来捕捉好友留下的评论中的语义信息,从未进一步地提高论文中采样模型的效率。

通过对生命周期建模实现推荐2

拟解决的主要问题

传统的推荐系统总是假设用户的偏好以及条目的属性是一成不变的,但是在现实的环境之中,无论是用户的偏好还是条目的属性都会随着时间而发生变化。虽然也有考虑绝对时间的推荐方法,但是用户和条目的变化和相对时间关系更加密切。

然而在结合生命周期的过程中遇到了以下难题:

  • 生命周期和实际时间,用户和条目在不同的绝对时间的特征可能区别较大,但是在他们的每个什么周期阶段的特征相对固定的。
  • 稀疏性,在现实环境中,用户数量和条目数量都是非常庞大的,所以用户和条目之间的交互数据是非常稀疏的。尤其在考虑生命周期的时间,这个问题就更加严峻了。

研究内容

生命周期

首先,文中将用户以及条目的生命周期定义如下

  • 生命周期:文中假设每个用户在生命周期中最多有M个生命阶段,每个条目在生命周期中最多有N个生命阶段。
  • 生命阶段:个生命阶段表示时间窗口,最后一个生命阶段为开放区间

由于引入了生命周期。也就有了个历史交互反馈矩阵中每个元素表示在第个用户生命阶段和第个条目生命阶段时的交互情况

其中为用户和条目的交互记录数据集,其中函数根据时间戳来计算记录对应的生命阶段

其中为第一个用户最早产生交互的时间,为用户生命阶段的统一时长,的定义也是类似的。

由于生命周期的存在,矩阵因式分解中将存在M个用户隐变量矩阵,以及N个条目隐变量矩阵

平滑处理

为了解决的稀疏性问题,作者提出了平滑版本的

平滑处理方式的直观解释如下:

  1. 之前一个生命周期的交互会对未来生命周期的交互产生一定影响。
  2. 之前的交互对目前和未来的交互的影响较弱,例如人们会逐渐忘记他们的兴趣;
  3. 影响会随着生命周期的推进而指数减弱,这也是时序模型的常用假设
时序正则化

为了防止模型在时间维度上过拟合,需要加入时序正则化,时序正则化包含两部分:

  • 方差正则化

方差正则化的目的是让相同生命周期之内用户之间以及条目之间的模式相近。

  • 融化正则化

融化正则化的目的是让相邻生命周期之间用户和条目的变化尽量小。

优化

在综合时序正则化之后,算法中的优化目标为

使用梯度下降即可获得问题的解,然后就能够利用隐变量矩阵获得交互预测矩阵

文章创新点

文中作者强调的创新点为:

  • 在推荐模型中有效地结合了用户和条目的生命周期
  • 利用平滑处理解决交互记录数据的稀疏性问题
  • 利用时序正则化来限制生命阶段之间的方差以及保持相邻生命阶段之间的连续

利用有序增量回归实现协同过滤3

拟解决的主要问题

当用户在各类网站上评分的时候,每个的评分偏好是不同的,用户对不同区间的评分的敏感程度也是不一样的,因此评分数值本身很难横向反应用户的偏好情况。论文采用一种增量的方法为用户的评分“真实值”进行建模,也就是为不同的评分区间设置不同的尺度。

研究内容

增量顺序回归

论文首先定义了每一对相邻分值之间的尺度,例如假设分值为,定义,那么可以定义评分的“真实值“

映射连续评分

如果连续值位于,那么可以定义”真实值“为

连续值在评分之间的位置比例定义为

如果定义,甚至可以定义”真实值“为

增量顺序回归

论文中采取的预测方法时首先预测用户评分在每个区间中的位置比例,再计算出最终的预测的”真实值“

分解矩阵的因式分解

使用代替代替之后,“真实值”的定义为

用户评分分解

如果用户打分的离散数值为,那么可以将评分矩阵分解为个二态矩阵。每一个二态矩阵表示评分矩阵中的评分是否大于等于,一个评分矩阵的分解结果如下:

利用二态矩阵预测评分

文中假设每个二态矩阵都是低秩矩阵,在每一个二态矩阵上做矩阵因式分解。对于二态矩阵,使用隐含因子预测的方法为

其中为用户隐含因子,为条目隐含因子,约束用于限制值域的意义就是用户评分在中的”位置比例“。

合并来自分解矩阵的预测

在的得到每个分解矩阵的预测结果之后,将每个区间的尺度作为权重求和

加入隐含因子,那么整个预测的公式为

在加上必要的正则化项之后,目标函数就是

并行SGD

论文中设计了一种并行SGD优化算法来训练模型

正则化参数

算法为不同用户和条目设置不同的正则化参数

并行随机梯度下降

算法将参数分为两组,然后交替优化

文章创新点

论文的主要创新就是采用增量的方法对用户评分的“真实值”进行建模,从而提高推荐系统中评分预测的准确度。

流排序推荐系统4

拟解决的主要问题

论文主要致力于解决以下问题

  • 大部分的推荐方法都是静态的:需要在使用之前进行预计算,无法集成到流处理系统中。
  • 捕捉用户的长期兴趣:在线训练过程中不仅要获取用户最新兴趣,也需要保留用户长期的兴趣。
  • 用户兴趣的改变以及为新用户和新条目建模:用户的兴趣会不断改变,条目和用户也会不断增多。
  • 超负荷:流处理要求算法的计算量在其处理能力之内。

研究内容

概率矩阵因式分解

论文使用了概率矩阵因式分解模型来预测用户评分,使用一个维的向量来表示用户或者条目的隐含因子。使用来表示参数,

假设每个评分之间相互独立,那么观测到整个数据集的概率就是

文中设定用户和条目的隐含因子由高斯模型生成

  • 对于
  • 对于
  • 对于用户和条目

模型的训练过程就是最大化用户和条目的观测概率,因此似然函数就是

在取对数并且增加正则化项之后,优化的目标函数为

然而负样本数量非常巨大,只需要采样部分即可

使用随机梯度下降算法优化目标函数即可完成模型训练。

流模型

为了能够在实时更新的同时保留用户的长期兴趣,论文中的流算法采用了一个“贮藏处”,来解决流处理过程中内存有限的问题。一个简易版本的流处理算法可以设计如下:

为了在保留用户长期兴趣的同时也保证捕捉到用户短期的兴趣变化,论文中设计了一种采样方法来更新。采样的基本思想就是,首先将之外的样本都视为负样本,将数据集中对现存模型参数改变最大的样本保留下来。更加公式化的说法就是,对于数据样本,如果越小,那么这个数据就携带修正模型更加有用的信息,所以一个样本的权重的计算方法为

所以一个样本被采样中的概率为

最终的算法整体结构如下

文章创新点

  • 论文中设计“贮藏”机制来保证模型能够保留用户的长期兴趣。
  • 使用积极采样的方法来缓解流处理的负载。

混合秩矩阵分解5

拟解决的主要问题

低秩矩阵作为协同过滤的一种方法可以到达很好的准确度,其中矩阵的秩通常需要事先固定。然而,在作者们的研究中发现,在一个用户-条目的矩阵中可以存在多个不同秩的子矩阵,因此使用固定的秩不足以完美地描述评分矩阵的内部结构。文中作者提出一种混合秩矩阵估计方法,结合不同秩的低秩矩阵模型来估计评分。

研究内容

混合秩矩阵估计

受到PMF(概率矩阵因式分解)算法的启发,从混合秩模型观测到的打分数据可以按照以下概率密度函数生成

其中是高斯分布的概率密度函数,是混合秩模型中的最大秩,是秩为的矩阵的用户权重向量和条目权重向量。对于用户和条目的特征向量,采用均值为零的高斯先验概率分布

对于,为了能够让最佳的秩具有最高的权重,选择拉普拉斯分布作为先验概率分布

用户和条目的特征向量以及权重的后验概率的对数为

利用詹森不等式,可以将上面的目标函数转换为更加容易优化的形式

模型学习

初始化:为全部的参数设置初始值。

ICM步骤:固定其他参数,可以通过求解一下最优问题来更新

剩余的参数可以令损失函数偏导为零得到

重复:收敛或者到达最大的迭代次数。

文章创新点

  • 提出了一种混合秩矩阵估计方法来提高矩阵估计和推荐准确度。
  • 使用了基于ICM的学习算法来解决模型的非凸优化问题。

未来研究点

结合其他推断方法来解决优化过程容易陷入局部最优的问题。

深度模型

从评分和评测中学习6

拟解决的主要问题

在实际的推荐任务中,可用的用户评分数据非常稀疏,如果还存在用户评测文本,那么可以用来增强推荐系统的性能。论文提出了一种带有注意力机制的双向GRU网络来从用户评测中提取来自于文本的特征用来增强矩阵因式分解算法的性能。

研究内容

用于文档建模的注意力循环神经网络

单词嵌入层:输入单词序列,将每个单词映射到一个维的嵌入向量

序列编码层:编码层采用双向GRU结构来捕捉序列中的上下文信息,每个GRU单元的当前输出的计算方法为

其中

其中计算前一个状态被遗忘的概率,计算前一个状态对于计算下一个候选激活状态的贡献大小。将每个时间点的两个方向的GRU的输出合并,得到

话题注意力层:话题注意力层用于在话题提出和推荐任务有关的信息,首先让序列编码输出经过一层感知机

然后和一个上下文向量点乘,使用softmax来计算每个输出的权重

接着使用权重求和

特征映射层:最后一层再次做一次非线性变换

从评测文档中提取文本信息

一篇评测一般既反应了用户的偏好,也反应了条目的信息。由于侧重点不同,论文使用两个结构相同参数不同的神经网络来同时学习用户的文本信息和条目的文本信息。对于一个用户或者条目,首先使用神经网络来生成多个评测文本特征,然后取平均值来表示一个用户或者条目的文本特征。

结合文本的矩阵因式分解

引入高斯观测噪音,观察到的用户评分的概率密度函数为

和传统的概率矩阵因式分解不同,论文中假设隐含因子和文本特征相关,因此隐含因子矩阵向量的先验分布就是

其中 从用户和条目的评测文档中获取的文本特征。

优化方法

训练过程的优化目标就是最大化的后验概率

取对数和增加正则化项之后的目标函数为

其中,。训练过程通过依次更新各个参数来完成

文章创新点

  • 论文提出了一个加入注意力机制的双向GRU网络来增强矩阵因式分解算法
  • 论文提出了一种协同进步的训练算法来训练提出的模型

未来研究点

尝试使用序列到序列模型框架来生成有关推荐的文本解释,从而帮助用户做好购买决策。

结合用户显式反馈和隐式反馈7

拟解决的主要问题

当前的推荐系统模型大部分都是假设用户和条目彼此独立的,即使考虑了用户-条目之间的关联,也没有尝试改过在深度神经网络中同时结合显式和隐式的关联进行学习。

研究内容

论文使用的模型是深度神经网络,因此论文的主要研究内容就是神经网络的结构的设计。

基于CNN的显式用户-条目关联学习
  1. 首先需要将用户信息和条目信息嵌入到向量
  2. 定义一个计算关联的函数得到用户-条目关联矩阵
  1. 使用一个卷积层对矩阵进行卷积操作和池化操作
  1. (全局显式用户-条目关联向量)展平之后和(局部显式用户-条目关联向量)合并
DeepCF学习隐式的用户-条目关系
  1. DeepCF神经网络的输入是标识用户和条目的one-hot编码向量
  2. 接下来是一层嵌套层得到低维的稠密向量
  1. 接着将做元素间相乘。得到向量
  1. 之后经过多层的全连接层
  1. 最后,通过sigmoid函数预测用户和条目产生交互的概率
CoupledCF:集成学习显式和隐式的用户-条目关系

在得到来自CNN的局部/全局显式用户-条目关系和来自DeppCF的隐式用户-条目关联之后,CoupledCF最终将这两个模型的输出进行合并得到向量,经过一层全连接层和sigmoid函数之后得到最终的预测结果

最终神经网络需要的训练数据集就是

文章创新点

  • 使用卷积神经网络学习用户-条目之间的显式关联
  • 使用全连接神经网络学习用户-条目之间的隐式关联
  • 最后使用CoupledCF将上述神经网络的计算结果合并

未来研究点

作者表示未来在此模型上的工作为:

  • 在实际环境中采集更加丰富的数据来测试模型。
  • 继续寻找其他深度网路结构来表示具有层次性和异质性的用户-条目关联。

LSTM网络实现跨网推荐8

拟解决的主要问题

跨平台推荐就是从多个源平台获取数据来帮助在目标平台上进行推荐。在观察了现有的跨平台推荐系统后,作者认为主要存在两方面的缺陷:

  • 无法捕捉用户交互中复杂的非线性关系。
  • 都是采用离线学习,而不是使用在线学习实现动态的推荐。

研究内容

神经网络的结构设计如下

跨网络话题层

模型将来自源平台的文本作为文档,使用LDA来提取文档中的话题。为了考虑时间维度,设置时间戳,在时间,神经网络只输入从时刻到时刻的时间内记录。因此从平台获得的话题分布向量就是,其中为话题总数,为话题对应的词频。在论文的网络结构图中的网络从两个源平台提取话题,因此会得到两个话题分布向量

嵌入层

将话题层的输出和潜在因子矩阵相乘,潜在因子矩阵中的每一个向量为话题的潜在因子向量。

另外,模型为每个用户训练一个独有的潜在因素向量,因此嵌入曾最终的输出为

高阶交互层

在嵌入层之后,需要对嵌入层的输出矩阵中的向量进行交互。首先,对于任何一对,通过元素间乘法计算出一个新的向量。然后将交叉的结果保存在一个新的矩阵中.。然后,将两个矩阵的合并得到。最终,通过求和采样得到一个输出向量

注意力机制

论文中魔改版的LSTM结构如下

  • 计算注意力分数:记录了用户在时刻在源平台的交互记录,也就可以用来计算当前用户状态和之前用户状态的关联程度,注意力分数计算方法如下
  • 计算额外输入:以注意力得分作为权重将之前所有时刻LSTM的输出累加,得到

魔改版LSTM中注意力门的计算流程为

  1. 输入注意力门分析当前的输入和额外输入来决定哪些值需要被保存到当前细胞状态中。
  2. 调制注意力门分析当前的输入和额外输入来决定对当前细胞状态的修改具体数值。
  3. 相乘计算对细胞状态的修改幅度。
时间感知输入和遗忘门

剩余的计算和标准的LSTM非常类似,但是在遗忘门中添加了让细胞状态中记忆随着时间间隔增加而被遗忘,在输入门中添加是的当前输入随着时间间隔增加了重要性提高。在更新细胞状态时,也需要将注意力门的更新加入。

预测层

最终的预测结果计算方式如下

训练:目标平台的交互记录表示成one-hot编码向量作为绝对事实。

避免过拟合:文中作者主要采用dropout技术来避免神经网络过拟合。

文章创新点

  • 在LSTM中增加了注意力机制来捕捉用户喜好的变化。
  • 使用一个高层的交互层来解决数据稀疏性。
  • 使用时间感知来步骤不规则时间间隔内的用户交互。

未来研究点

作者表示未来可以考虑在模型中加入社交因素的影响,例如利用用户好友信息。

多指针和联合注意力9

拟解决的主要问题

许多先进的推荐系统会利用户评测来提高性能,但是利用评测的过程中存在以下问题

  1. 将评测简单粗暴地合并成单个文档是不自然的做法,会引入很多噪音。
  2. 用户和条目的表示都是静态的,和匹配目标没有关联。
  3. 用户和条目的唯一关联是通过固定维度的表示。

针对上述问题,论文基于只有少数评测具有重要信息的思想,提出了一种多层次的模型。

研究内容

输入编码

模型会接收到两个输入串a(用户)和b(条目),每个输入串为一段评测列表,其中为最大的评测数量。

嵌入层:每个评测会包含单词个的单词,表示成one-hot编码的向量。对于a和b,使用一个嵌入矩阵将每一个单词转为维的词向量。

评测门机制:每篇评测被表示成组成单词的嵌入向量的和。论文中使用了门机制来决定多少评测信息进入下一层。

评测注意力层

类同矩阵:给定评测列表的嵌入形式(),通过下方公式计算它们之间的类同矩阵

其中,层神经网络,通常

池化函数:取矩阵行列的最大值作为原评测列表的权重实现注意力机制。

其中为下文的Gumbel Softmax。

评测指针

Gumbel-Max:Gumbel-Max能够让离散随机变量在端到端神经网络中使用。考虑一个由规范化的对数概率定义的的分类分布

那么one-hot编码的采样可以定义如下

其中作为噪音使得每个分类按照 权重进行采样。

直接使用Gumbel-Softmax:可微的Gumbel-Max可以定义如下

其中用来控制和one-hot编码的接近程度,越接近零,那么越接近one-hot编码。

提取指针:使用Gumbel-Softmax即可直接获得指针

单词层面的注意力

评测指针会找出最具价值的评测,后续对最优价值的评测进行更加详细的信息提取。令为指针找出的评测,那么可以计算出单词层面的类同矩阵

其中,接着对类同矩阵进行均值池化操作

多指针参数

论文使用指针的机制来排除冗余的评测,然而只是用一对指针是不够,所以模型采用了多指针的机制。如果模型提取了次指针,那么最终的得到的输出为

  • 合并:直接连接成一个长向量,不适用于非常大的情况。
  • 相加:将输出相加,例如
  • 神经网络:将输出合并之后传给一层非线性网络层,例如,最终输出一个维的向量。

论文中的实验表明,上述三种方法不存在绝对的最佳方案,需要通过交叉验证方法根据应用场景来选择最佳的合并方式。

预测层

预测层的输入为,合并成之后由FM算法预测最终的结果,FM算法的模型如下:

其中均为模型参数。

文章创新点

文中使用联合注意力的机制设计了一个能够更好地利用评测信息的神经网络推荐模型。

使用卷积序列嵌入实现推荐10

拟解决的主要问题

论文将用户最近交互的条目合并为一张“图像”,然后采用卷积神经网络来来学习薛烈模式。

在之前的序列推荐工作中主要存在两点缺陷:

  • 无法对联合(多对一)序列模式进行建模
  • 无法处理跳跃相关的情况

研究内容

序列推荐问题就是根据用户最佳交互条目的序列来预测用户下一步可能会交互的条目

神经网络的整体架构如下

嵌入查询

模型首先将包含之前个条目的序列的特征隐含向量组合成一个矩阵作为神经网络的输入。

其中

卷积层

神经网络的卷积层把上一层输入的矩阵作为“图像”,将序列特性视为图像的局部特征。

水平卷积层:水平卷积层用于捕捉联合层面的序列模式,如果有个水平过滤器,第个卷积操作的结果表示为

卷积结果可以表示为

最后需要做最大池化,就是取每个过滤器产生的卷积结果中的最大值,

垂直卷积层:垂直卷积层用于捕捉点层面的序列模式,如果有个垂直过滤器。每个过滤器在矩阵上从左向右做卷积操作,得到

由于过滤器列数为1,因此卷积操作就是在矩阵每一列上的加权求和

最后将卷积输出合并到一个向量中,

全连接层

随后将两个卷积神经网络的输出合并后前馈给全连接层

其中。为了能够结合用户的偏好,在第二层全连接层合并了用户的嵌入向量,神经网络的最终输出为

其中

网络训练

神经网络的输出可以转化为概率

来表示可以预测的时间戳,那么整个数据集的似然函数就是

如果考虑跳跃行为,那么可以引入

优化上述目标函数即可完成神经网络的训练。

文章创新点

文章创新点就是将序列的嵌入向量合并为一张“图像”,然后使用卷积神经网络来学习序列模式。

从非结构数据中学习属性11

拟解决的主要问题

在电子商务中通常涉及用户体验个性化、需求预测和产品范围规划。完成这些任务的关键就是能够拥有关于产品的详细描述信息,然而在实际情况中很难满足。论文中讨论了作者们如果借助机器学习方法补全产品信息,然后使用补全的信息推升推荐系统的性能。

研究内容

属性预测

用于预测商品属性的神经网络结构如下

图像分类:从商品的图像中可以获取部分信息,取在ImageNet上预先训练好的VGG16的最后一层卷积的输出(),对其进行全局最大池化,作为图像信息的输入,在文中的例子中使用了4张商品图片。

文本分类:首先将文本转换为嵌入的形式,然后在嵌入输出上做一维的卷积,接着做时间维度上的最大池化以及一层全连接层。

多模型融合:模型需要将商品的图像信息、文本信息以及品牌、区域、类型等元信息融合到一起来预测商品属性。

多任务学习:模型需要预测多个属性,模型为不同属性设置了单独的预测输出层,让神经网络通过学习未缺失的属性来预测缺失的属性。

在个性化推荐中的应用

推荐系统的神经网络结构如下

论文中使用了基于内容推荐和协同过滤的混合推荐方法,以此来和克服两种方法各自的不足。首先,模型使用全连接来处理用户和条目的内容信息,使用嵌入方法处理协同过滤信息,然后使用求和来合并内容因子和协同因子。然后,模型采用了非对称矩阵因子分解,将用户向量求均值后再和产品向量点乘。模型训练使用的损失函数为

其中为负采样的数据集,为神经网络对于用户-条目的评估分数。

文章创新点

  • 讲述了一个通过强化产品信息来实现更好的个性化推荐的例子。
  • 设计了一个通过填补缺失标签来强化产品信息的系统。
  • 设计了一个将内容推荐和协同过滤合并的混合推荐系统。

未来研究点

  • 将产品描述的方法应用到其他更多的应用中,例如数据支持设计、产品分析、销售预测、范围规划、寻找相似产品、通过预测元数据来提升搜索性能。
  • 研究内容相关和协同过滤混合方式在冷启动方面的权衡。

利用深度模型融合多渠道信息实现更好的新闻推荐12

拟解决的主要问题

如今每天互联网上回产生数百万的新闻文章,如何向用户提供个性化地新闻已经内容提供商的重要任务。论文提出了一种深度融合模型来提升深度推荐系统表征学习的能力。

研究内容

起始模块(Inception Module)

模型的输入来自用户或者条目的原始特征,假设有个特征

其中,特征可以是连续的值或者离散的值,离散的值又能分为两种情况:一价(例如用户ID)和多价(例如话题向量)。然后,模型将每个特征通过嵌入的方法,映射到一个维的向量中。嵌入方法为

  • 连续特征:通过全连接映射到向量
  • 一价特征:建立一个表格,每个值对应一个嵌入向量,使用查表法映射
  • 多价特征:查找每个单独变量的嵌入向量之后采用均值采样得到一个向量

嵌入层最终的输出可以表示为

嵌入向量之后会分别输入到三个子网络中,分别是一个三隐层全连接网络、一个单隐层全连接网络和一个线性单元。

各个子网络的输出被合并为,最终的输出为

Inception Module的优势在于:

  • 能够让模型从不同深度的交互中提取需要的隐含因子
  • 能够让模型自行选择最佳的神经网络深度
注意融合层

注意力融合层用来动态合并来自不同Inception Module的输出,每个Inception Module都处理来自不同域的信息。不同Inception Module的输出使用上标来表示,注意力融合层使用两层神经网络计算每个Inception Module输出的注意力得分

其中为为融合需要的额外信息,包含了用户在不同域活动的分布情况,注意力得分在使用前需要进行规范化

用户的最终表示向量通过注意力加权求和得到

另外,条目通常是不具备多域信息的,所以条目表示向量可以直接由单个Inception Module得到。

深度融合模型在信息检索的应用

利用模型计算得出的表示向量,就可以很方便地计算出某个用户和某个条目之间的相关度

深度融合模型在排名中的应用

如果结合上下文信息,那么可以让推荐系统达成更好的性能。图中的线性部分的计算为,全连接神经网络的输出为,模型的最终输出可以表示为

文章创新点

  • 使用Inception Module通过同时使用不同层次的交互层来提升多层神经网络的性能。
  • 使用注意力机制实现个性化地合并来自学习自不同渠道的隐含因子向量。

参考文献

  1. Manotumruksa, Jarana, Craig Macdonald, and Iadh Ounis. “A Personalised Ranking Framework with Multiple Sampling Criteria for Venue Recommendation.” Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 2017. 

  2. Liu, Xinyue, et al. “BiCycle: Item Recommendation with Life Cycles.” Data Mining (ICDM), 2017 IEEE International Conference on. IEEE, 2017. 

  3. Hu, Jun, and Ping Li. “Collaborative filtering via additive ordinal regression.” Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018. 

  4. Wang, Weiqing, et al. “Streaming Ranking Based Recommender Systems.” The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. ACM, 2018. 

  5. Li, Dongsheng, et al. “Mixture-Rank Matrix Approximation for Collaborative Filtering.” Advances in Neural Information Processing Systems. 2017. 

  6. Lu, Yichao, Ruihai Dong, and Barry Smyth. “Coevolutionary Recommendation Model: Mutual Learning between Ratings and Reviews.” Proceedings of the 2018 World Wide Web Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2018. 

  7. Zhang, Quangui, et al. “CoupledCF: Learning Explicit and Implicit User-item Couplings in Recommendation for Deep Collaborative Filtering.” IJCAI. 2018. 

  8. Perera, Dilruk, and Roger Zimmermann. “LSTM Networks for Online Cross-Network Recommendations.” IJCAI. 2018. 

  9. Tay, Yi, Luu Anh Tuan, and Siu Cheung Hui. “Multi-Pointer Co-Attention Networks for Recommendation.” arXiv preprint arXiv:1801.09251 (2018). 

  10. Tang, Jiaxi, and Ke Wang. “Personalized top-n sequential recommendation via convolutional sequence embedding.” Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018. 

  11. Cardoso, Ângelo, Fabio Daolio, and Saúl Vargas. “Product Characterisation towards Personalisation: Learning Attributes from Unstructured Data to Recommend Fashion Products.” arXiv preprint arXiv:1803.07679 (2018). 

  12. Lian, Jianxun, et al. “Towards Better Representation Learning for Personalized News Recommendation: a Multi-Channel Deep Fusion Approach.” IJCAI. 2018.