相关性视觉对抗贝叶斯个性化排序推荐模型

Contents Abstract Full text PDF

引用本文

李广丽, 卓建武, 许广鑫, 等. 相关性视觉对抗贝叶斯个性化排序推荐模型[J]. 工程科学与技术, 2022, 54(3): 230-238. DOI:10.15961/j.jsuese.202100569

LI Guangli, ZHUO Jianwu, XU Guangxin, et al. Correlation Visual Adversarial Bayesian Personalized Ranking Recommendation Model[J]. Advanced Engineering Sciences, 2022, 54(3): 230-238. DOI:10.15961/j.jsuese.202100569

相关性视觉对抗贝叶斯个性化排序推荐模型

李广丽¹, 卓建武¹, 许广鑫¹, 李传秀¹, 吴光庭¹, 张红斌²

1. 华东交通大学信息工程学院，江西南昌 330013;
2. 华东交通大学软件学院，江西南昌 330013

收稿日期: 2021-06-17; 网络出版时间: 2022-05-12 18:09:30

作者简介: 李广丽（1977—），女，副教授. 研究方向：推荐模型、肿瘤图像识别. E-mail：1333@ecjtu.edu.cn

基金项目: 国家自然科学基金项目（62161011；61861016）；教育部人文社会科学研究规划基金项目（20YJAZH142）；江西省自然科学基金面上项目（20212BAB202006；20202BABL202044；20202BABL212006）；江西省科技厅重点研发计划项目（20202BBEL53003）；江西省教育厅科技项目（GJJ190323；GJJ200627；GJJ200644）；江西省高校人文社科基金项目（TQ20108；TQ21203）

摘要: 传统推荐模型存在数据稀疏、鲁棒性较低问题，且未能有效挖掘异构特征间的深层语义。为解决以上问题，提出相关性视觉对抗贝叶斯个性化排序（correlation visual adversarial Bayesian personalized ranking，CVABPR）推荐模型。首先，基于MovieLens数据集中的电影标题，在互联网电影资料库（Internet movie database，IMDB）爬取对应电影海报图像，构建全新多模态数据集MovieLens–100k–WMI和MovieLens–1M–WMI。其次，基于SENet模型提取一组具有互补性的异构特征，准确描述电影海报图像。然后，改进聚类典型相关性分析模型，深入挖掘异构SENet特征间的聚类典型相关性特征；基于该相关性特征优化视觉贝叶斯个性化排序模型，精准刻画待推荐电影。最后，在推荐模型中加入扰动因子，通过对抗学习来增强推荐模型鲁棒性，使推荐更稳定，生成高质量推荐结果。为验证CVABPR模型，在多模态数据集上完成实验，结果表明：CVABPR模型在这两个数据集上都有效，在MovieLens–100k–WMI数据集上，其推荐的平均精度均值（mean average precision，MAP）较最强基线提升3.802%；在MovieLens–1M–WMI数据集上，其推荐的MAP指标较最强基线提升4.609%。CVABPR模型优于主流基线。消融分析实验表明：相比聚类典型相关性，对抗学习在推荐中发挥更重要的作用。此外，在数据稀疏度更高的MovieLens–1M–WMI数据集上，CVABPR模型能获得更大幅度性能提升，数据稀疏问题得到有效缓解且异构特征间的深层语义也得以充分利用，CVABPR模型已具备较强鲁棒性。

关键词: 数据稀疏推荐模型贝叶斯个性化排序对抗学习聚类典型相关性

Correlation Visual Adversarial Bayesian Personalized Ranking Recommendation Model

LI Guangli¹, ZHUO Jianwu¹, XU Guangxin¹, LI Chuanxiu¹, WU Guangting¹, ZHANG Hongbin²

1. School of Info. Eng., East China Jiaotong Univ., Nanchang 330013, China;
2. School of Software, East China Jiaotong Univ., Nanchang 330013, China

Abstract: In order to solve three problems of traditional recommendation models, i.e., data sparsity, low robustness and the lack of deep-level semantics among heterogeneous features, a novel correlation visual adversarial Bayesian personalized ranking (CVABPR) recommendation model was proposed. First, based on the movie titles in the original MovieLens datasets, the corresponding movie posters were downloaded from Internet movie database (IMDB) to construct two multimodal datasets named MovieLens−100k−WMI and MovieLens−1M−WMI, respectively. Second, a group of heterogeneous but complementary image features were extracted using the SENet model to describe movie posters accurately. Then, the cluster canonical correlation analysis model was improved to mine the implicit cluster canonical correlation between the heterogeneous features. Afterwards, the correlation was used to optimize the visual Bayesian personalized ranking (VBPR) model to better depict the movies to be recommended. Finally, a perturbation factor was absorbed into the recommendation model to enhance the robustness of the CVABPR model through adversarial learning, making the recommendation model more stable and generating high-quality recommendation results. To verify the proposed CVABPR model, a set of experiments were carried out on two multimodal datasets. Evident performance improvements of the CVABPR model were observed on the two datasets. Specifically, a 3.802% performance improvement of the mean average precision (MAP) metric was obtained on the MovieLens−100k−WMI dataset, and a 4.609% performance improvement of the MAP metric was observed on the MovieLens−1M−WMI dataset. The mainstream baseline was defeated by the CVABPR model. Based on ablative analysis experiments, a more important role of the adversarial learning strategy was found compared with the cluster canonical correlation. Additionally, larger performance improvements were observed on the MovieLens−1M−WMI dataset with higher data sparsity. The key challenges of data sparsity and the lack of deep semantic among heterogeneous features were solved to a certain degree. Meanwhile, the CVABPR model has strong robustness.

Key words: data sparsity recommendation model Bayesian personalized ranking adversarial learning cluster canonical correlation

伴随大数据时代到来，如何在海量数据中挖掘有效的信息，已成为工业界和学术界共同关注的问题。推荐模型（也称推荐系统）^[1]是一种有效的信息过滤机制，它根据用户需求从海量数据中筛选出有价值的内容，并以个性化方式推荐给用户。

推荐模型可分为基于内容的推荐、基于协同过滤的推荐、混合推荐和基于对抗学习的推荐。基于内容的推荐是利用用户选择的物品来寻找其他类似物品完成推荐。基于协同过滤的推荐能获取浅层模型无法学到的用户和物品的深层特征，多采用矩阵分解（matrix factorization，MF）^[2]、奇异值分解^[3]、聚类^[4]、贝叶斯个性化排序（Bayesian personalized ranking，BPR）^[5]等模型，分析用户与物品间潜在交互，从而预测用户偏好，但传统协同过滤方法面临数据稀疏问题。为此，He等^[6]基于卷积神经网络（convolutional neural network，CNN）^[7]提取视觉特征改进BPR模型，构建视觉贝叶斯个性化排序（visual Bayesian personalized ranking，VBPR）模型。Chu等^[8]基于视觉信息和用户评分完成酒店推荐。视觉信息还可用于旅游推荐^[9]、食物推荐^[10]和餐厅推荐^[11]。融合多源异构信息的混合推荐^[12−13]由于能缓解数据稀疏问题，也受到研究者高度重视。虽然研究者采用视觉信息、混合推荐来应对数据稀疏问题，但该问题仍未得到有效解决，且异构特征间的深层语义未有效挖掘。

近年来，为了提升模型鲁棒性，对抗学习被引入推荐模型中。Wang等^[14]提出信息检索生成对抗网络（information retrieval generative adversarial networks，IRGAN），IRGAN首次将对抗学习融入推荐。Wang等^[15]使用Softmax函数加速训练过程，大大提高了计算效率。Wang等^[16]提出自适应噪声采样器，为推荐模型生成对抗负样本。He等^[17]提出对抗个性化排序模型（adversarial personalized ranking，APR），通过为特征增加干扰，减少模型过拟合并提高其鲁棒性。Yang等^[18]通过生成增强的用户与待推荐物品间的交互，改进基于协同过滤的推荐。总之，对抗学习在推荐中扮演重要角色，但模型鲁棒性仍有待提升。

综上，推荐模型仍存在数据稀疏、异构特征间深层语义未有效挖掘和模型鲁棒性有待提升等关键问题。为解决以上问题，本文引入新图像特征、聚类典型相关性和对抗学习策略，设计相关性视觉对抗贝叶斯个性化排序（correlation visual adversarial Bayesian personalized ranking，CVABPR）推荐模型，以完成高质量推荐。本文的创新点如下：

1）引入新图像特征SENet^[19]并改进聚类典型相关性分析（cluster canonical correlation analysis）模型^[20]，将异构SENet特征映射至同一语义空间，挖掘它们间的聚类典型相关性，更好地刻画待推荐电影，从视觉内容角度缓解数据稀疏问题，并充分利用异构特征间深层语义。

2）将挖掘出的聚类典型相关性和对抗学习策略融入VBPR模型中，构建全新的CVABPR模型，其推荐性能优于主流基线；由于在对抗学习中加入扰动因子，推荐模型具备较强鲁棒性。

1 CVABPR模型 1.1 模型框架

CVABPR模型框架如图1所示。CVABPR模型包括图像特征提取、聚类典型相关性分析和对抗学习。首先，基于SENet模型^[19]抽取5个异构图像特征：SEResNet50（SR50）、SEResNet101（SR101）、SEResNet152（SR152）、SEResNeXt50（SRxt50）及SEResNeXt101（SRxt101）。其次，改进CCCA模型^[20]以分析SENet特征间隐含的聚类典型相关性，获得相关性特征，分别用SR50–SR101、SR50–SR152、SR50–SRxt50、SR50–SRxt101等表示，共计10组。例如，SR50–SR101表示SR50与SR101特征之间的聚类典型相关性，其他命名的含义同理。在VBPR模型中引入对抗学习策略，并将聚类典型相关性嵌入其中，构建CVABPR模型，完成高质量个性化推荐。

图1 CVABPR模型框架 Fig. 1 Framework of the CVABPR model

1.2 聚类典型相关性分析

在SENet特征提取基础上，改进聚类典型相关性分析（cluster canonical correlation analysis，CCCA）模型^[20]，挖掘异构特征间的典型相关性。设两个图像特征矩阵为 ${\boldsymbol{X}}$ 与 ${\boldsymbol{Y}}$ ，图像特征矩阵中的样本从C个单独类（C指电影类别数，本文为19）中采集， $T_x $ 为第1类特征 $x $ 的特征集合， $ T_y$ 为第2类特征 $y $ 的特征集合。具体如下所示：

$ {T_x} = {\text{\{}}{{\boldsymbol{X}}_1}{\text{, }}{{\boldsymbol{X}}_2}{\text{,}}\cdots{\text{, }}{{\boldsymbol{X}}_c} {\text{,}}\cdots{\text{, }}{{\boldsymbol{X}}_C}{\text{\} }} $

(1)

$ {T_y} = {\text{\{}}{{\boldsymbol{Y}}_1}{\text{, }}{{\boldsymbol{Y}}_2}{\text{, }}\cdots{\text{, }}{{\boldsymbol{Y}}_c}{\text{, }}\cdots{\text{, }} {{\boldsymbol{Y}}_C}{\text{\} }} $

(2)

式（1）、（2）中， ${{\boldsymbol{X}}_c} = {\text{\{}}{\boldsymbol{x}}_1^c{\text{, }}{\boldsymbol{x}}_2^c{\text{,}}\cdots{\text{, }}{\boldsymbol{x}}_{|{{\boldsymbol{X}}_c}|}^c{\text{\} }}$ 、 ${{\boldsymbol{Y}}_c} = {\text{\{}}{\boldsymbol{y}}_1^c{\text{, }}{\boldsymbol{y}}_2^c{\text{, }}\cdots{\text{, }} $ $ {\boldsymbol{y}}_{|{{\boldsymbol{Y}}_c}|}^c{\text{\} }}$ 分别表示在第c组中 ${\boldsymbol{X}}$ 和 ${\boldsymbol{Y}}$ 的数据， $c={\text{\{}}1{\text{, }}2{\text{, }}\cdots{\text{, }}C{\text{\} }}$ ， $\left| {{{\boldsymbol{X}}_c}} \right|$ 、 $\left| {{{\boldsymbol{Y}}_c}} \right|$ 分别表示两个图像特征的维度。设 ${\boldsymbol{ w}}$ 、 ${\boldsymbol{v}}$ 分别为 ${\boldsymbol{X}}$ 、 ${\boldsymbol{Y}}$ 对应的投影向量。 ${\boldsymbol{X}}$ 、 ${\boldsymbol{Y}}$ 的相关系数 $\;{\boldsymbol{\rho}}$ 计算如下：

$ {\boldsymbol{\rho }} = \mathop {{\text{max}}}\limits_{{\boldsymbol{w,v}}} \frac{{{{\boldsymbol{w}}^{\text{T}}}{{\boldsymbol{C}}_{XY}}{\boldsymbol{v}}}}{{\sqrt {{{\boldsymbol{w}}^{\text{T}}}{{\boldsymbol{C}}_{XX}}{\boldsymbol{w}}} \sqrt {{{\boldsymbol{v}}^{\text{T}}}{{\boldsymbol{C}}_{YY}}{\boldsymbol{v}}} }} $

(3)

式中，max为求最大值函数， ${{\boldsymbol{C}}_{XY}}$ 、 ${{\boldsymbol{C}}_{XX}}$ 和 ${{\boldsymbol{C}}_{YY}}$ 表示协方差矩阵，如下所示：

$ {{\boldsymbol{C}}_{XY}} = \frac{1}{S}\sum\limits_{c = 1}^C {\sum\limits_{i = 1}^{|{{\boldsymbol{X}}_c}|} {\sum\limits_{j = 1}^{|{{\boldsymbol{Y}}_c}|} {{\boldsymbol{x}}_i^c{{({\boldsymbol{y}}_j^c)}^{\text{T}}}} } } $

(4)

$ {{\boldsymbol{C}}_{XX}} = \frac{1}{S}\sum\limits_{c = 1}^C {\sum\limits_{i = 1}^{|{{\boldsymbol{X}}_c}|} {|{{\boldsymbol{Y}}_c}|{\boldsymbol{x}}_i^c{{({\boldsymbol{x}}_i^c)}^{\text{T}}}} } $

(5)

$ {{\boldsymbol{C}}_{YY}} = \frac{1}{S}\sum\limits_{c = 1}^C {\sum\limits_{j = 1}^{|{{\boldsymbol{Y}}_c}|} {|{{\boldsymbol{X}}_c}|{\boldsymbol{y}}_j^c{{({\boldsymbol{y}}_j^c)}^{\text{T}}}} } $

(6)

式（4）～（6）中，S为 ${\boldsymbol{X}}$ 和 ${\boldsymbol{Y}}$ 的成对关系总对数， $S = $ $ \displaystyle\sum_{c = 1}^C {|{{\boldsymbol{X}}_c}||{{\boldsymbol{Y}}_c}|}$ 。获取 $\; {\boldsymbol{\rho}}$ 最大化时 ${\boldsymbol{X}}$ 、 ${\boldsymbol{Y}}$ 对应的投影向量 ${\boldsymbol{w}}$ 、 ${\boldsymbol{v}}$ ，将 ${\boldsymbol{X}}$ 和 ${\boldsymbol{Y}}$ 映射到中间空间，生成映射后的特征矩阵 ${{\boldsymbol{X}}_{\rm{a}}}$ 和 ${{\boldsymbol{Y}}_{\rm{a}}}$ ：

$ {{\boldsymbol{X}}_{\rm{a}}} = {{\boldsymbol{w}}^{\text{T}}}{\boldsymbol{X }}$

(7)

$ {{\boldsymbol{Y}}_{\rm{a}}} = {{\boldsymbol{v}}^{\text{T}}}{\boldsymbol{Y}} $

(8)

将式（7）、（8）中 ${{\boldsymbol{X}}_{\rm{a}}}$ 和 ${{\boldsymbol{Y}}_{\rm{a}}}$ 分别进行拼接和相加融合，得到聚类典型相关性特征矩阵 ${{\boldsymbol{U}}_1}$ 和 ${{\boldsymbol{U}}_2}$ ，如下所示：

$ {{\boldsymbol{U}}_1} = {\text{(}}{{\boldsymbol{X}}_{\rm{a}}} {{\boldsymbol{Y}}_{\rm{a}}}{\text{)}} $

(9)

$ {{\boldsymbol{U}}_2} = {\text{(}}{{\boldsymbol{X}}_{\rm{a}}} + {{\boldsymbol{Y}}_{\rm{a}}}{\text{)}} $

(10)

1.3 CVABPR模型形式化描述

CVABPR模型的基础框架是VBPR模型，CVABPR模型在VBPR模型中引入对抗学习策略“A（adversarial）”和聚类典型相关性“C（correlation）”。VBPR模型源于BPR模型，BPR模型仅依赖“用户–评分”矩阵完成推荐，该矩阵只包含用户对电影的评分，评分范围1～5分；而VBPR模型在BPR模型中增加了视觉特征接口，基于该接口可将外部语义引入推荐模型中。因此，在VBPR模型中加入已挖掘的聚类典型相关性，即通过视觉特征接口将相关性输入VBPR，构建相关性视觉贝叶斯个性化排序（correlation VBPR，CVBPR）模型，由于仅采用聚类典型相关性，故它是CVABPR模型的变种。下面对CVABPR模型进行推导。

首先，VBPR模型的评分预测函数如下：

$ {\hat y_{ui}} = {\boldsymbol{p}}_u^{\text{T}}{{\boldsymbol{q}}_i} + {\boldsymbol{h}}_u^{\text{T}}{\text{(}}{\boldsymbol{E}} \cdot {{\boldsymbol{c}}_i}{\text{)}} $

(11)

式中： ${\hat y_{ui}} $ 为VBPR模型预测的评分， $u $ 为用户序号， $i $ 为电影序号； ${\boldsymbol{p}}_u^{\text{T}}{{\boldsymbol{q}}_i}$ 为基于传统MF模型^[2]的预测评分， ${{\boldsymbol{p}}_u}$ 为基于“用户–评分”矩阵生成的用户u的特征向量（ ${{\boldsymbol{p}}_u} \in {\Re ^K} $ ）， ${{\boldsymbol{q}}_i}$ 为基于“用户–评分”矩阵生成的电影i的特征向量（ $ {{\boldsymbol{q}}_i} \in {\Re ^K} $ ）； ${\boldsymbol{h}}_u^{\text{T}}{\text{(}}{\boldsymbol{E}} \cdot {{\boldsymbol{c}}_i}{\text{)}}$ 为基于电影海报图像特征的预测评分， ${{\boldsymbol{c}}_i}$ 表示电影i的D维视觉特征（ ${{\boldsymbol{c}}_i} \in {\Re ^D} $ ）， ${\boldsymbol{E}}$ 为转换矩阵（ ${\boldsymbol{E}} \in {\Re ^{K \times D}} $ ），它对电影i的视觉特征 ${c_i}$ 进行维度转置， ${\boldsymbol{E}} \cdot {{\boldsymbol{c}}_i}$ 为视觉特征潜语义描述， ${{\boldsymbol{h}}_u}$ 为用户u对应的K维特征向量（ ${{\boldsymbol{h}}_u} \in {\Re ^K} $ ），它描述用户的潜在偏好。因此，BPR模型损失函数为：

$ {L_{{\text{BPR}}}} = {\sum\limits_{{\text{(}}u,i,j{\text{)}} \in Data} {{{ - {\rm{ln}}}} \;\sigma {\text{(}}{{\hat y}_{ui}} - {{\hat y}_{uj}}{\text{)}} + \beta ||{\boldsymbol{\varTheta}} ||} ^2} $

(12)

式中，i、j为电影序号，Data为逐对排序优化中的3元组数据， $ \sigma $ 为sigmoid激励函数， $\;\beta$ 为控制正则化的超参数， ${\boldsymbol{\varTheta}}$ 为BPR模型参数， $||{\boldsymbol{\varTheta}} |{|^2}$ 为正则项。引入对抗学习后，CVABPR模型的评分预测函数为：

$ {\hat y'_{ui}} = {\boldsymbol{p}}_u^{\text{T}}{\text{(}}{{\boldsymbol{q}}_i} + {\boldsymbol{E}} \cdot {\text{(}}{{\boldsymbol{c}}_i} + {{\mathit{\Delta}} _i}{\text{))}} $

(13)

式中， ${\hat y'_{ui}} $ 为CVABPR模型预测的评分， ${{\boldsymbol{p}}_u}$ 、 ${{\boldsymbol{q}}_i}$ 、 ${\boldsymbol{E}} $ 和 ${{\boldsymbol{c}}_i}$ 的含义同式（11）， $ {{\mathit{\Delta}} _i} $ 为用于对抗学习的扰动参数。对抗扰动是一种能有效提升模型鲁棒性的正则项，将扰动项添加到视觉特征（即聚类典型相关性特征）中不会改变原视觉特征内容，但它可提升视觉特征潜语义描述 ${\boldsymbol{E}} \cdot {{\boldsymbol{c}}_i}$ 应对外界噪声干扰的能力。因此，为获取最佳扰动参数需最大化BPR损失，公式如下：

$ \begin{aligned}[b] {{\mathit{\Delta}} ^*} =& {\rm{arg}}\mathop {{\rm{max}}}\limits_{\mathit{\Delta}} {L'_{{\text{BPR}}}}=\\&{\rm{ arg}}\mathop {{\rm{max}}}\limits_{\mathit{\Delta}} \sum\limits_{{\rm{(}}u,i,j{\rm{)}} \in Data} {{\rm{ - ln}}\;\sigma {\rm{(}}{{\hat y'}_{ui}} - {{\hat y'}_{uj}}{\rm{)}}}, \quad||{\mathit{\Delta}} || \le \varepsilon \\[-10pt] \end{aligned} $

(14)

式中： $ {L'_{{\text{BPR}}}} $ 为基于式（13）中评分预测函数设计的BPR损失函数； ${{\mathit{\Delta}} ^*}$ 为模型优化出的最佳扰动参数； $|| \cdot ||$ 为L2正则化参数； $ \varepsilon $ 为调制扰动幅度的超参数，它控制BPR损失范围。为获得最佳模型参数，需最小化BPR损失：

$ \begin{aligned}[b] {{\boldsymbol{\varTheta}} ^*} =& {\rm{arg}}\mathop {{\rm{min}}}\limits_{\boldsymbol{\varTheta}} {L_{{\rm{BPR}}}} + \lambda {L'_{{\text{BPR}}}} = \\& {\rm{arg}}\mathop {{\rm{min}}}\limits_{\boldsymbol{\varTheta}} \sum\limits_{{\rm{(}}u,i,j{\rm{)}} \in Data} { - {\rm{ln}}\;\sigma {\rm{(}}{{\hat y}_{ui}} - {{\hat y}_{uj}}{\rm{)}}} - \\& \lambda \ln \;\sigma {\rm{(}}{{\hat y'}_{ui}} - {{\hat y'}_{uj}}{\rm{)}} + \beta ||{\boldsymbol{\varTheta}} |{|^2} \end{aligned} $

(15)

式中， ${{\boldsymbol{\varTheta}} ^*}$ 为优化出的最佳模型参数， $ {\hat y_{ui}} $ 、 $ {\hat y_{uj}} $ 用式（11）计算， $ {\hat y'_{ui}} $ 、 $ {\hat y'_{uj}} $ 用式（13）计算， $\lambda $ 为模型训练过程的超参数， $\;\beta$ 为控制正则化的超参数。使用随机梯度下降算法优化模型并更新参数，对应更新参数的公式如式（16）、（17）所示：

${\;\;\;\;\;\;\;\;\;\;\; {\mathit{\Delta}} \leftarrow {\mathit{\Delta}} - \eta '\frac{{\boldsymbol{T}}}{{||{\boldsymbol{T}}||}}, {\boldsymbol{T}} = \frac{{\partial {{L'}_{{\text{BPR}}}}}}{{\partial {\mathit{\Delta}} }}} $

(16)

$ {\boldsymbol{\varTheta}} \leftarrow {\boldsymbol{\varTheta}} - \eta \frac{{\partial {L_{{\text{BPR}}}}}}{{\partial {\boldsymbol{\varTheta}} }} $

(17)

式中，T为参数 ${\mathit{\Delta}}$ 的梯度， $ \eta $ 为参数 $ \varepsilon $ 的学习率， $ \eta ' $ 为参数 ${\mathit{\Delta}}$ 的学习率。

2 实验与分析 2.1 数据集及对比模型

MovieLens100k 和 MovieLens1M数据集^[21]中包含“用户–评分”矩阵、电影标题和电影类别等信息，“用户–评分”矩阵中是用户对电影的评分，评分范围为1～5分。每个用户至少评价20部电影。MovieLens100k的评分数量为100000，MovieLens1M的评分数量约为1000000，具体信息见表1。此外，MovieLens数据集包括19种详细的电影类别，分别是动作、冒险、动画、儿童、喜剧、犯罪、纪录片、戏剧、奇幻、黑色电影、恐怖、音乐、悬疑、浪漫、科幻、惊悚、战争、西部、未知。本文将电影海报图像加入MovieLens100k 和 MovieLens1M数据集，构建两个全新的多模态数据集：MovieLens–100k–WMI（“WMI”表示“with movie images”）和 MovieLens–1M–WMI。根据电影标题从互联网电影资料库（Internet movie database，IMDB）爬取每部电影对应的海报，每张海报属于19个电影类别之一。基于MovieLens 数据集和电影海报图像生成多模态数据集MovieLens–WMI，用户可访问爬取的电影海报图像数据集^[22]。MovieLens–WMI数据集的详细信息如表1所示。

表1 MovieLens–WMI数据集详细信息 Tab. 1 Detailed information of the MovieLens–WMI datasets

实验中，随机抽取80%“用户–评分”及对应图像数据作为训练集，剩下20%“用户–评分”及对应图像数据作为测试集。实验迭代2000次，每50次迭代计算1次推荐指标均值，共计算40次，从这40次结果中分别选取每个推荐指标的最优值作为模型的最终推荐性能评估值。

选取3种排序评价指标评估模型的推荐性能，分别是平均准确率（average precision @ K，P@K）^[14]、平均精度均值（mean average precision，MAP）^[23]和归一化折损累计增益（normalized discounted cumulative gain，NDCG）^[24]。P@K计算推荐结果中前K个的准确率；MAP对若干次推荐产生的P@K值取均值；NDCG@K关注排序加权后前K个推荐结果的准确率。这3个指标值越大说明推荐性能越好。

将CVABPR与如下4类方法进行比较。

1）传统模型：最大似然估计（maximum likelihood estimation，MLE）^[25]和LambdaFM（lambda factorization machines）^[26]；

2）基于GAN的推荐模型：GraphGAN（graph generative adversarial networks）^[15]、IRGAN^[14]和UPM-GAN（users preference mining-generative adversarial networks）^[23]；

3）BPR的变种：BPR^[5]、VBPR^[6]、CVBPR和APR^[17]模型；

4）基于深度学习的推荐模型：DMF（deep MF）^[27]和NMF（Neural MF）^[24]模型。

2.2 实验结果 2.2.1 CVBPR模型实验结果

为验证聚类典型相关性特征的有效性，首先，在MovieLens–100k–WMI和 MovieLens–1M–WMI两个数据集上，使用不同特征分别建立CVBPR模型（CVABPR模型的变种，即只采用聚类典型相关性而忽略对抗学习策略）并评估其性能。建立模型的特征包括：从SENet模型中抽取的5个异构图像特征（SR50、SR101、SR152、SRxt50及SRxt101）和10组聚类典型相关性特征（如SR50–SR101、SR50–SR152、SR50–SRxt50、SR50–SRxt101）；作为对比，还提取VGG16^[28]、HSV^[29]和ResNet50（R50）^[30]等传统特征。计算采用每个特征建立的模型的性能指标。图2展示了建立的模型在P@3和NDCG@3两个指标上的最优值（其他指标类似），包括使用传统特征分别建模获得的最优模型指标、使用5个异构图像特征分别建模获得的最优模型指标、使用10组聚类典型相关性特征分别建模获得的性能排在前2的模型的指标。

图2 CVBPR模型中不同特征的推荐性能 Fig. 2 Recommendation performance of different features in CVBPR model

如图2（a）所示：在MovieLens–100k–WMI数据集中，相比最优传统特征R50建立模型的性能，SRxt50特征建立模型的性能更优。该优势在NDCG@3指标上尤为明显，论证了SRxt50特征的有效性。这表明，选取SENet特征进行聚类典型相关性分析可以获取判别性更强的新特征。在全部聚类典型相关性中，性能最优的是SRxt50–SRxt101，这表明：SRxt50和SRxt101这两类SENet特征间存在较强的底层相关性，该相关性被改进的CCCA模型所捕获，进而准确刻画待推荐电影海报图像。此外，由图2（a）还可知：采用聚类典型相关性特征建立的模型的推荐性能均优于采用单特征（包括传统特征和SENet特征）建立的模型，这说明改进的CCCA模型是有效的，它能挖掘出具有足够多判别语义的特征，提升推荐性能。

在MovieLens–1M–WMI数据集上可得到与图2（a）相似的实验结论，其中，SRxt50–SRxt101和SR50–SRxt50表现优异，本质原因同上。综上所述，改进的CCCA模型能准确捕获异构SENet特征之间潜在的聚类典型相关性，从而更好地刻画待推荐电影，最终改善推荐性能。当然，基础的VBPR框架在推荐中也扮演了关键角色（参见第2.3节）。

2.2.2 CVABPR模型实验结果

在聚类典型相关性分析基础上，引入对抗学习策略，在CVBPR模型基础上构造CVABPR模型，CVABPR模型在两个数据集上的推荐性能如图3所示。

图3 CVABPR模型中不同特征的推荐性能 Fig. 3 Recommendation performance of different features in CVABPR model

图3与图2类似，对于传统特征、SENet类特征，仅选择模型在NDCG@3和P@3两个指标上的最优值做展示，对于聚类典型相关性特征，则选取最优的两个模型的指标进行展示。CVABPR相对CVBPR的推荐性能提升幅度见表2。表2中：在MovieLens–100k–WMI数据集上，Improve₁和Improve₂分别表示CVABPR模型相对于CVBPR模型在P@3指标和NDCG@3指标上的提升幅度；在MovieLens–1M–WMI数据集上，Improve₃和Improve₄分别表示CVABPR模型相对于CVBPR模型在P@3指标和NDCG@3指标上的提升幅度。

表2 CVABPR相对于CVBPR的推荐性能提升幅度 Tab. 2 Recommendation performance improvement of CVABPR compared to CVBPR

由图3（a）可知：在MovieLens–100k–WMI数据集中，聚类典型相关性SRxt50–SRxt101表现最优，它优于各单特征，这说明改进的CCCA模型^[20]能生成高质量聚类典型相关性，准确描述用户偏好并最终改善推荐性能。在MovieLens–1M–WMI数据集上也能获得较高的性能，故模型具备较强鲁棒性，而对抗学习是确保该鲁棒性的关键。相比于图2，图3中推荐效果更优，即CVABPR模型性能优于CVBPR模型。

由表2可知，在数据集MovieLens–100K–WMI上，对于P@3和NDCG@3指标，使用聚类典型相关性特征SRxt50–SRxt101建立的CVABPR模型比CVBPR模型（图2（a））分别提升4.18%和4.30%（MovieLens–1M–WMI数据集类似），这进一步表明，引入对抗学习策略使推荐模型能更好地应对外部噪声扰动，提升模型鲁棒性并获取更优的推荐效果。

综上，采用对抗学习策略，能使推荐模型更好地应对外部扰动，从而变得更稳定、鲁棒，即对抗学习使CVABPR模型中的视觉特征潜语义描述能更好地抵御外界噪声干扰，从而准确描述待推荐电影，完成高质量用户兴趣建模，从视觉内容角度积极应对数据稀疏问题并最终改善推荐精度及模型鲁棒性。因此，对抗学习策略在CVABPR模型中扮演非常重要的角色。

2.2.3 与主流基线对比

选择CVABPR模型的最佳结果（图3）与第2.1节所述主流推荐模型进行性能对比，结果见表3和4。表3中，Improve₅表示在MovieLens–100k–WMI数据集上，与最强基线APR模型相比，CVABPR模型推荐性能的提升幅度。表4中，Improve₆表示在MovieLens–1M–WMI数据集上，与最强基线APR模型相比，CVABPR模型推荐性能的提升幅度。

表3 CVABPR模型与主流基线性能结果比较（MovieLens–100k–WMI） Tab. 3 Performance comparisons between CVABPR and state-of-the-art baselines (MovieLens–100k–WMI)

表4 CVABPR模型与主流基线性能结果比较（MovieLens–1M–WMI） Tab. 4 Performance comparisons between CVABPR and state-of-the-art baselines (MovieLens–1M–WMI)

如表3、4所示，CVABPR模型获得最佳性能，与协同过滤式推荐模型MLE^[25]、BPR^[5]和LambdaFM^[26]相比，可观察到最大的推荐性能差距。因为传统模型仅使用“用户–评分”矩阵完成推荐，该矩阵只包含用户对电影的评分，数据稀疏问题非常严重（参见表1的稠密度）。与DMF^[24]和NMF^[25]等深度学习类推荐模型相比，CVABPR模型的优势也十分显著。CVABPR模型提供全新的视觉特征接口，该接口可以将外部语义（如聚类典型相关性）集成到推荐模型中，然后配合“用户–评分”矩阵完成推荐。显然，引入图像信息能更好地刻画待推荐电影，实现高质量用户建模，以准确描述其偏好，即从视觉内容角度有效缓解推荐中的数据稀疏问题。与IRGAN^[14]、GraphGAN^[15]、UPM–GAN^[23]和APR^[17]等对抗学习类推荐模型相比，CVABPR也表现优异。不同于这些GAN模型，CVABPR模型引入了异构特征间的深层语义（聚类典型相关性），能更好地描述待推荐电影。同时，CVABPR中还加入扰动因子，使视觉特征潜语义描述能更好地应对外部干扰，从而完成更稳定的推荐并获得更优的推荐性能。

表4中：相比于MovieLens–100k–WMI数据集，CVABPR模型在稀疏度更高的MovieLens–1M–WMI数据集上获取了更大的性能提升，对于NDCG@5和MAP指标，CVABPR模型在MovieLens–1M–WMI数据集上的性能明显优于MovieLens–100k–WMI数据集。这表明所提的CVABPR模型在更稀疏的数据集上能更好地应对数据稀疏问题。同时，CVABPR模型在这两个数据集上相对于APR模型的平均性能提升幅度分别是2.273%、3.252%，显然，CVABPR模型在更稀疏的数据集上获得了更大的平均性能提升。这可能是因为：MovieLens–1M–WMI数据集包含更丰富的图像数据，改进的CCCA模型能挖掘出判别性更强的聚类典型相关性，为描述用户隐含偏好奠定坚实基础。因此，CVABPR模型在聚类典型相关性分析基础上获取了更多有价值的语义信息，更准确地刻画了待推荐电影，从视觉内容角度可有效地应对数据稀疏问题。

2.3 消融分析实验

通过消融分析实验来分别检验CVABPR模型各部件，包括视觉接口（V）、聚类典型相关性（C）、对抗学习策略（A）等在推荐中的有效性。构造3个CVABPR模型的变种（VABPR、CVBPR、BPR），完成消融分析实验，计算P@3、MAP、NDCG@3这3类指标及各类指标均值Mean，结果见表5。

表5 CVABPR模型消融分析实验结果 Tab. 5 Ablation analysis results of CVABPR

1）VABPR ：从CVABPR模型中移除聚类典型相关性分析（C），获取VABPR模型。表5中，VABPR对应行的值表示VABPR模型相对CVABPR模型的性能下降幅度，故其着力评价聚类典型相关性的重要性；

2）CVBPR ：从CVABPR模型中移除对抗学习策略（A），获取CVBPR模型。表5中，CVBPR对应行的值表示CVBPR模型相对CVABPR模型的性能下降幅度，故其着力评价对抗学习策略的重要性；

3）BPR：从VBPR模型中移除视觉接口（V），获取BPR模型。表5中，BPR对应行的值表示BPR模型相对VBPR模型的性能下降幅度，故其着力评价视觉接口的重要性。

由表5可知：当移除视觉接口后，推荐模型性能出现最大幅度下降；移除对抗学习策略也会导致较大幅度下降；而移除聚类典型相关性，推荐模型的性能下降幅度相对较小。因此，基于平均值（Mean）可得到CVABPR模型各部件重要性的降序排列：视觉接口（V）重要性>对抗学习（A）重要性>聚类典型相关性（C）重要性。CVABPR模型充分利用电影海报图像中蕴含的聚类典型相关性来提升模型推荐性能，即充分挖掘并利用异构SENet图像特征之间的深层视觉语义；而对抗学习则使推荐模型更趋稳定且鲁棒，并获取更优推荐性能。由表5还发现：基于MovieLens–1M–WMI数据集建立的模型性能下降幅度更大，即CVABPR模型能在更稀疏的数据集上获取更大的性能提升，数据稀疏问题得到一定解决。该实验结论与表3、4吻合。

3 结论与展望

为解决推荐中的数据稀疏、未有效利用深层视觉语义、模型鲁棒性较低等问题，提出相关性视觉对抗贝叶斯个性化排序推荐模型CVABPR，它从SENet特征提取、聚类典型相关性分析和对抗学习等角度积极应对上述问题。实验结果表明：CVABPR模型在MovieLens–100k–WMI和 MovieLens–1M–WMI两个数据集上都取得较好推荐效果，已具备较强鲁棒性。

未来工作展望：1）运用其他特征学习方法，如Transformer^[31]，获取更有效的图像特征；2）基于Unicoder–VL^[32]和LXMERT^[33]等模型更好地挖掘异构图像特征间的相关性。

参考文献

[1]	Sun Yusheng,Zhu Jinhong,Li Yaqi. Research development of information recommendation based on big data in China:Core content[J]. Modern Information, 2020, 40(8): 156-165. [孙雨生,朱金宏,李亚奇. 国内基于大数据的信息推荐研究进展:核心内容[J]. 现代情报, 2020, 40(8): 156-165. DOI:10.3969/j.issn.1008-0821.2020.08.017]
[2]	Rennie J D M,Srebro N.Fast maximum margin matrix factorization for collaborative prediction[C]//ICML 2005:Proceedings of the 22nd International Conference on Machine learning.New York:Association for Computing Machinery,2005:713–719.
[3]	Zhou Xun,He Jing,Huang Guangyan,et al. SVD-based incremental approaches for recommender systems[J]. Journal of Computer and System Sciences, 2015, 81(4): 717-733. DOI:10.1016/j.jcss.2014.11.016
[4]	Sun Jigui,Liu Jie,Zhao Lianyu. Clustering algorithms research[J]. Journal of Software, 2008, 19(1): 48-61. [孙吉贵,刘杰,赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1): 48-61. DOI:10.3724/SP.J.1001.2008.00048]
[5]	Salakhutdinov R,Mnih A.Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]//ICML 2008:Proceedings of the 25th International Conference on Machine Learning.New York:ACM,2008:880–887.
[6]	He R,McAuley J.VBPR:Visual Bayesian personalized ranking from implicit feedback[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Phoenix:AAAI,2016,30(1):144−150.
[7]	Zhang Jing,Peng Qinke,Sun Shiquan,et al. Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J]. Physica A:Statistical Mechanics and Its Applications, 2014, 396: 66-76. DOI:10.1016/j.physa.2013.11.013
[8]	Chu Weita,Tsai Y L. A hybrid recommendation system considering visual information for predicting favorite restaurants[J]. World Wide Web, 2017, 20(6): 1313-1331. DOI:10.1007/s11280-017-0437-1
[9]	Zhang Yujun,Han Bing,Gao Xinbo,et al.Personalized travel recommendation via multi-view representation learning[C]//Proceedings of Chinese Conference on Pattern Recognition and Computer Vision.Xi’an:Springer,2019:97–109.
[10]	Gao Xiaoyan,Feng Fuli,He Xiangnan,et al. Hierarchical attention network for visually-aware food recommendation[J]. IEEE Transactions on Multimedia, 2020, 22(6): 1647-1659. DOI:10.1109/TMM.2019.2945180
[11]	Luo Haihua,Zhang Xiaoyan,Guoy G.Convolutional attention model for restaurant recommendation with multi-view visual features[C]//Proceedings of the 2020 IEEE International Conference on Image Processing.Abu Dhabi:IEEE,2020:838–842.
[12]	Ji Zhenyan,Yang Chun,Wang Huihui,et al. BRS CS:A hybrid recommendation model fusing multi-source heterogeneous data[J]. EURASIP Journal on Wireless Communications and Networking, 2020, 2020: 124. DOI:10.1186/s13638-020-01716-2
[13]	Gao Li,Yang Hong,Wu Jia,et al.Recommendation with multi-source heterogeneous information[C]//Proceedings of the Twenty-seventh International Joint Conference on Artificial Intelligence.Stockholm:AAAI,2018:3378–3384.
[14]	Wang Jun,Yu Lantao,Zhang Weinan,et al.IRGAN:A minimax game for unifying generative and discriminative information retrieval models[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2017:515–524.
[15]	Wang Hongwei,Wang Jia,Wang Jialin,et al.GraphGAN:Graph representation learning with generative adversarial nets[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New Orleans:AAAI,2018.
[16]	Wang Qinyong,Yin Hongzhi,Hu Zhiting,et al.Neural memory streaming recommender networks with adversarial training[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM,2018:2467–2475.
[17]	He Xiangnan,He Zhankui,Du Xiaoyu,et al.Adversarial personalized ranking for recommendation[C]//Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval.New York:ACM,2018:355–364.
[18]	Yang Deqing,Guo Zikai,Wang Ziyi,et al.A knowledge-enhanced deep recommendation framework incorporating GAN-based models[C]//Proceedings of the 2018 IEEE International Conference on Data Mining.Singapore:IEEE,2018:1368–1373.
[19]	Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132–7141.
[20]	Zhang Hongbin,Xiong Qipeng,Jiang Ziliang,et al. Material image recognition combining heterogeneous-layer feature fusion of SENet and ensemble learning[J]. Control and Decision, 2022, 37(6): 1632-1642. [张红斌,熊其鹏,蒋子良,等. 联合SENet异构层特征融合与集成学习的材质图像识别[J]. 控制与决策, 2022, 37(6): 1632-1642. DOI:10.13195/j.kzyjc.2020.1559]
[21]	Social Computing Research at the University of Minnesota [EB/OL].[2020–12–03].http://files.grouplens.org/datasets/movielens
[22]	Version Control Software Source Code Hosting Service Platform[EB/OL].[2021–03–07].https://github.com/CVABPR/Datasets
[23]	Li Guangli,Hua Jin,Yuan Tian,et al. Recommendation system based on users’ preference mining generative adversarial networks[J]. Journal of Frontiers of Computer Science & Technology, 2020, 14(5): 803-814. [李广丽,滑瑾,袁天,等. 基于用户偏好挖掘生成对抗网络的推荐系统[J]. 计算机科学与探索, 2020, 14(5): 803-814. DOI:10.3778/j.issn.1673-9418.1905090]
[24]	He Xiangnan,Liao Lizi,Zhang Hanwang,et al.Neural collaborative filtering[C]//Proceedings of the International Conference on World Wide Web.Perth:WWW,2017:173–182.
[25]	Rocca M,Porzio G C,Vitale M P,et al.Finite sample behavior of MLE in network autocorrelation models[C]//Classification,(Big) Data Analysis and Statistical Learning.Cham:Springer,2018:43–50.
[26]	Yuan Fajie,Guo Guibing,Jose J M,et al.LambdaFM:Learning optimal ranking with factorization machines using lambda surrogates[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management.New York:ACM,2016:227–236.
[27]	Rennie J D M,Srebro N.Fast maximum margin matrix factorization for collaborative prediction[C]//Proceedings of the 22nd International Conference on Machine learning.Bonn:ICML,2005:713–719.
[28]	Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2014–09–04)[2021–03–06].https://arxiv.org/abs/1409.1556
[29]	Yang Tao,Zhang Senlin. Approach of vehicle plate extraction based on HSV color space and SIFT feature[J]. Application Research of Computers, 2011, 28(10): 3937-3939. [杨涛,张森林. 一种基于HSV颜色空间和SIFT特征的车牌提取算法[J]. 计算机应用研究, 2011, 28(10): 3937-3939. DOI:10.3969/j.issn.1001-3695.2011.10.092]
[30]	He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:770–778.
[31]	Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:Curran Associates Inc,2017:6000–6010.
[32]	Li Gen,Duan Nan,Fang Yuejian,et al.Unicoder-VL:A universal encoder for vision and language by cross-modal pre-training[C].//Proceedings of the AAAI Conference on Artificial Intelligence.New York:AAAI,2020,34(7):11336–11344.
[33]	Tan H,Bansal M.Lxmert:Learning cross-modality encoder representations from transformers[EB/OL].(2019–08–20)[2022–03–06].https://arxiv.org/abs/1908.07490


工程科学与技术 2022, Vol. 54 Issue (3): 230-238