2. 华东交通大学 软件学院,江西 南昌 330013
2. School of Software, East China Jiaotong Univ., Nanchang 330013, China
伴随大数据时代到来,如何在海量数据中挖掘有效的信息,已成为工业界和学术界共同关注的问题。推荐模型(也称推荐系统)[1]是一种有效的信息过滤机制,它根据用户需求从海量数据中筛选出有价值的内容,并以个性化方式推荐给用户。
推荐模型可分为基于内容的推荐、基于协同过滤的推荐、混合推荐和基于对抗学习的推荐。基于内容的推荐是利用用户选择的物品来寻找其他类似物品完成推荐。基于协同过滤的推荐能获取浅层模型无法学到的用户和物品的深层特征,多采用矩阵分解(matrix factorization,MF)[2]、奇异值分解[3]、聚类[4]、贝叶斯个性化排序(Bayesian personalized ranking,BPR)[5]等模型,分析用户与物品间潜在交互,从而预测用户偏好,但传统协同过滤方法面临数据稀疏问题。为此,He等[6]基于卷积神经网络(convolutional neural network,CNN)[7]提取视觉特征改进BPR模型,构建视觉贝叶斯个性化排序(visual Bayesian personalized ranking,VBPR)模型。Chu等[8]基于视觉信息和用户评分完成酒店推荐。视觉信息还可用于旅游推荐[9]、食物推荐[10]和餐厅推荐[11]。融合多源异构信息的混合推荐[12−13]由于能缓解数据稀疏问题,也受到研究者高度重视。虽然研究者采用视觉信息、混合推荐来应对数据稀疏问题,但该问题仍未得到有效解决,且异构特征间的深层语义未有效挖掘。
近年来,为了提升模型鲁棒性,对抗学习被引入推荐模型中。Wang等[14]提出信息检索生成对抗网络(information retrieval generative adversarial networks,IRGAN),IRGAN首次将对抗学习融入推荐。Wang等[15]使用Softmax函数加速训练过程,大大提高了计算效率。Wang等[16]提出自适应噪声采样器,为推荐模型生成对抗负样本。He等[17]提出对抗个性化排序模型(adversarial personalized ranking,APR),通过为特征增加干扰,减少模型过拟合并提高其鲁棒性。Yang等[18]通过生成增强的用户与待推荐物品间的交互,改进基于协同过滤的推荐。总之,对抗学习在推荐中扮演重要角色,但模型鲁棒性仍有待提升。
综上,推荐模型仍存在数据稀疏、异构特征间深层语义未有效挖掘和模型鲁棒性有待提升等关键问题。为解决以上问题,本文引入新图像特征、聚类典型相关性和对抗学习策略,设计相关性视觉对抗贝叶斯个性化排序(correlation visual adversarial Bayesian personalized ranking,CVABPR)推荐模型,以完成高质量推荐。本文的创新点如下:
1)引入新图像特征SENet[19]并改进聚类典型相关性分析(cluster canonical correlation analysis)模型[20],将异构SENet特征映射至同一语义空间,挖掘它们间的聚类典型相关性,更好地刻画待推荐电影,从视觉内容角度缓解数据稀疏问题,并充分利用异构特征间深层语义。
2)将挖掘出的聚类典型相关性和对抗学习策略融入VBPR模型中,构建全新的CVABPR模型,其推荐性能优于主流基线;由于在对抗学习中加入扰动因子,推荐模型具备较强鲁棒性。
1 CVABPR模型 1.1 模型框架CVABPR模型框架如图1所示。CVABPR模型包括图像特征提取、聚类典型相关性分析和对抗学习。首先,基于SENet模型[19]抽取5个异构图像特征:SEResNet50(SR50)、SEResNet101(SR101)、SEResNet152(SR152)、SEResNeXt50(SRxt50)及SEResNeXt101(SRxt101)。其次,改进CCCA模型[20]以分析SENet特征间隐含的聚类典型相关性,获得相关性特征,分别用SR50–SR101、SR50–SR152、SR50–SRxt50、SR50–SRxt101等表示,共计10组。例如,SR50–SR101表示SR50与SR101特征之间的聚类典型相关性,其他命名的含义同理。在VBPR模型中引入对抗学习策略,并将聚类典型相关性嵌入其中,构建CVABPR模型,完成高质量个性化推荐。
![]() |
| 图1 CVABPR模型框架 Fig. 1 Framework of the CVABPR model |
1.2 聚类典型相关性分析
在SENet特征提取基础上,改进聚类典型相关性分析(cluster canonical correlation analysis,CCCA)模型[20],挖掘异构特征间的典型相关性。设两个图像特征矩阵为
| $ {T_x} = {\text{\{}}{{\boldsymbol{X}}_1}{\text{, }}{{\boldsymbol{X}}_2}{\text{,}}\cdots{\text{, }}{{\boldsymbol{X}}_c} {\text{,}}\cdots{\text{, }}{{\boldsymbol{X}}_C}{\text{\} }} $ | (1) |
| $ {T_y} = {\text{\{}}{{\boldsymbol{Y}}_1}{\text{, }}{{\boldsymbol{Y}}_2}{\text{, }}\cdots{\text{, }}{{\boldsymbol{Y}}_c}{\text{, }}\cdots{\text{, }} {{\boldsymbol{Y}}_C}{\text{\} }} $ | (2) |
式(1)、(2)中,
| $ {\boldsymbol{\rho }} = \mathop {{\text{max}}}\limits_{{\boldsymbol{w,v}}} \frac{{{{\boldsymbol{w}}^{\text{T}}}{{\boldsymbol{C}}_{XY}}{\boldsymbol{v}}}}{{\sqrt {{{\boldsymbol{w}}^{\text{T}}}{{\boldsymbol{C}}_{XX}}{\boldsymbol{w}}} \sqrt {{{\boldsymbol{v}}^{\text{T}}}{{\boldsymbol{C}}_{YY}}{\boldsymbol{v}}} }} $ | (3) |
式中,max为求最大值函数,
| $ {{\boldsymbol{C}}_{XY}} = \frac{1}{S}\sum\limits_{c = 1}^C {\sum\limits_{i = 1}^{|{{\boldsymbol{X}}_c}|} {\sum\limits_{j = 1}^{|{{\boldsymbol{Y}}_c}|} {{\boldsymbol{x}}_i^c{{({\boldsymbol{y}}_j^c)}^{\text{T}}}} } } $ | (4) |
| $ {{\boldsymbol{C}}_{XX}} = \frac{1}{S}\sum\limits_{c = 1}^C {\sum\limits_{i = 1}^{|{{\boldsymbol{X}}_c}|} {|{{\boldsymbol{Y}}_c}|{\boldsymbol{x}}_i^c{{({\boldsymbol{x}}_i^c)}^{\text{T}}}} } $ | (5) |
| $ {{\boldsymbol{C}}_{YY}} = \frac{1}{S}\sum\limits_{c = 1}^C {\sum\limits_{j = 1}^{|{{\boldsymbol{Y}}_c}|} {|{{\boldsymbol{X}}_c}|{\boldsymbol{y}}_j^c{{({\boldsymbol{y}}_j^c)}^{\text{T}}}} } $ | (6) |
式(4)~(6)中,S为
| $ {{\boldsymbol{X}}_{\rm{a}}} = {{\boldsymbol{w}}^{\text{T}}}{\boldsymbol{X }}$ | (7) |
| $ {{\boldsymbol{Y}}_{\rm{a}}} = {{\boldsymbol{v}}^{\text{T}}}{\boldsymbol{Y}} $ | (8) |
将式(7)、(8)中
| $ {{\boldsymbol{U}}_1} = {\text{(}}{{\boldsymbol{X}}_{\rm{a}}} {{\boldsymbol{Y}}_{\rm{a}}}{\text{)}} $ | (9) |
| $ {{\boldsymbol{U}}_2} = {\text{(}}{{\boldsymbol{X}}_{\rm{a}}} + {{\boldsymbol{Y}}_{\rm{a}}}{\text{)}} $ | (10) |
CVABPR模型的基础框架是VBPR模型,CVABPR模型在VBPR模型中引入对抗学习策略“A(adversarial)”和聚类典型相关性“C(correlation)”。VBPR模型源于BPR模型,BPR模型仅依赖“用户–评分”矩阵完成推荐,该矩阵只包含用户对电影的评分,评分范围1~5分;而VBPR模型在BPR模型中增加了视觉特征接口,基于该接口可将外部语义引入推荐模型中。因此,在VBPR模型中加入已挖掘的聚类典型相关性,即通过视觉特征接口将相关性输入VBPR,构建相关性视觉贝叶斯个性化排序(correlation VBPR,CVBPR)模型,由于仅采用聚类典型相关性,故它是CVABPR模型的变种。下面对CVABPR模型进行推导。
首先,VBPR模型的评分预测函数如下:
| $ {\hat y_{ui}} = {\boldsymbol{p}}_u^{\text{T}}{{\boldsymbol{q}}_i} + {\boldsymbol{h}}_u^{\text{T}}{\text{(}}{\boldsymbol{E}} \cdot {{\boldsymbol{c}}_i}{\text{)}} $ | (11) |
式中:
| $ {L_{{\text{BPR}}}} = {\sum\limits_{{\text{(}}u,i,j{\text{)}} \in Data} {{{ - {\rm{ln}}}} \;\sigma {\text{(}}{{\hat y}_{ui}} - {{\hat y}_{uj}}{\text{)}} + \beta ||{\boldsymbol{\varTheta}} ||} ^2} $ | (12) |
式中,i、j为电影序号,Data为逐对排序优化中的3元组数据,
| $ {\hat y'_{ui}} = {\boldsymbol{p}}_u^{\text{T}}{\text{(}}{{\boldsymbol{q}}_i} + {\boldsymbol{E}} \cdot {\text{(}}{{\boldsymbol{c}}_i} + {{\mathit{\Delta}} _i}{\text{))}} $ | (13) |
式中,
| $ \begin{aligned}[b] {{\mathit{\Delta}} ^*} =& {\rm{arg}}\mathop {{\rm{max}}}\limits_{\mathit{\Delta}} {L'_{{\text{BPR}}}}=\\&{\rm{ arg}}\mathop {{\rm{max}}}\limits_{\mathit{\Delta}} \sum\limits_{{\rm{(}}u,i,j{\rm{)}} \in Data} {{\rm{ - ln}}\;\sigma {\rm{(}}{{\hat y'}_{ui}} - {{\hat y'}_{uj}}{\rm{)}}}, \quad||{\mathit{\Delta}} || \le \varepsilon \\[-10pt] \end{aligned} $ | (14) |
式中:
| $ \begin{aligned}[b] {{\boldsymbol{\varTheta}} ^*} =& {\rm{arg}}\mathop {{\rm{min}}}\limits_{\boldsymbol{\varTheta}} {L_{{\rm{BPR}}}} + \lambda {L'_{{\text{BPR}}}} = \\& {\rm{arg}}\mathop {{\rm{min}}}\limits_{\boldsymbol{\varTheta}} \sum\limits_{{\rm{(}}u,i,j{\rm{)}} \in Data} { - {\rm{ln}}\;\sigma {\rm{(}}{{\hat y}_{ui}} - {{\hat y}_{uj}}{\rm{)}}} - \\& \lambda \ln \;\sigma {\rm{(}}{{\hat y'}_{ui}} - {{\hat y'}_{uj}}{\rm{)}} + \beta ||{\boldsymbol{\varTheta}} |{|^2} \end{aligned} $ | (15) |
式中,
| ${\;\;\;\;\;\;\;\;\;\;\; {\mathit{\Delta}} \leftarrow {\mathit{\Delta}} - \eta '\frac{{\boldsymbol{T}}}{{||{\boldsymbol{T}}||}}, {\boldsymbol{T}} = \frac{{\partial {{L'}_{{\text{BPR}}}}}}{{\partial {\mathit{\Delta}} }}} $ | (16) |
| $ {\boldsymbol{\varTheta}} \leftarrow {\boldsymbol{\varTheta}} - \eta \frac{{\partial {L_{{\text{BPR}}}}}}{{\partial {\boldsymbol{\varTheta}} }} $ | (17) |
式中,T为参数
MovieLens100k 和 MovieLens1M数据集[21]中包含“用户–评分”矩阵、电影标题和电影类别等信息,“用户–评分”矩阵中是用户对电影的评分,评分范围为1~5分。每个用户至少评价20部电影。MovieLens100k的评分数量为100000,MovieLens1M的评分数量约为1000000,具体信息见表1。此外,MovieLens数据集包括19种详细的电影类别,分别是动作、冒险、动画、儿童、喜剧、犯罪、纪录片、戏剧、奇幻、黑色电影、恐怖、音乐、悬疑、浪漫、科幻、惊悚、战争、西部、未知。本文将电影海报图像加入MovieLens100k 和 MovieLens1M数据集,构建两个全新的多模态数据集:MovieLens–100k–WMI(“WMI”表示“with movie images”)和 MovieLens–1M–WMI。根据电影标题从互联网电影资料库(Internet movie database,IMDB)爬取每部电影对应的海报,每张海报属于19个电影类别之一。基于MovieLens 数据集和电影海报图像生成多模态数据集MovieLens–WMI,用户可访问爬取的电影海报图像数据集[22]。MovieLens–WMI数据集的详细信息如表1所示。
| 表1 MovieLens–WMI数据集详细信息 Tab. 1 Detailed information of the MovieLens–WMI datasets |
![]() |
实验中,随机抽取80%“用户–评分”及对应图像数据作为训练集,剩下20%“用户–评分”及对应图像数据作为测试集。实验迭代2000次,每50次迭代计算1次推荐指标均值,共计算40次,从这40次结果中分别选取每个推荐指标的最优值作为模型的最终推荐性能评估值。
选取3种排序评价指标评估模型的推荐性能,分别是平均准确率(average precision @ K,P@K)[14]、平均精度均值(mean average precision,MAP)[23]和归一化折损累计增益(normalized discounted cumulative gain,NDCG)[24]。P@K计算推荐结果中前K个的准确率;MAP对若干次推荐产生的P@K值取均值;NDCG@K关注排序加权后前K个推荐结果的准确率。这3个指标值越大说明推荐性能越好。
将CVABPR与如下4类方法进行比较。
1)传统模型:最大似然估计(maximum likelihood estimation,MLE)[25]和LambdaFM(lambda factorization machines)[26];
2)基于GAN的推荐模型:GraphGAN(graph generative adversarial networks)[15]、IRGAN[14]和UPM-GAN(users preference mining-generative adversarial networks)[23];
3)BPR的变种:BPR[5]、VBPR[6]、CVBPR和APR[17]模型;
4)基于深度学习的推荐模型:DMF(deep MF)[27]和NMF(Neural MF)[24]模型。
2.2 实验结果 2.2.1 CVBPR模型实验结果为验证聚类典型相关性特征的有效性,首先,在MovieLens–100k–WMI和 MovieLens–1M–WMI两个数据集上,使用不同特征分别建立CVBPR模型(CVABPR模型的变种,即只采用聚类典型相关性而忽略对抗学习策略)并评估其性能。建立模型的特征包括:从SENet模型中抽取的5个异构图像特征(SR50、SR101、SR152、SRxt50及SRxt101)和10组聚类典型相关性特征(如SR50–SR101、SR50–SR152、SR50–SRxt50、SR50–SRxt101);作为对比,还提取VGG16[28]、HSV[29]和ResNet50(R50)[30]等传统特征。计算采用每个特征建立的模型的性能指标。图2展示了建立的模型在P@3和NDCG@3两个指标上的最优值(其他指标类似),包括使用传统特征分别建模获得的最优模型指标、使用5个异构图像特征分别建模获得的最优模型指标、使用10组聚类典型相关性特征分别建模获得的性能排在前2的模型的指标。
![]() |
| 图2 CVBPR模型中不同特征的推荐性能 Fig. 2 Recommendation performance of different features in CVBPR model |
如图2(a)所示:在MovieLens–100k–WMI数据集中,相比最优传统特征R50建立模型的性能,SRxt50特征建立模型的性能更优。该优势在NDCG@3指标上尤为明显,论证了SRxt50特征的有效性。这表明,选取SENet特征进行聚类典型相关性分析可以获取判别性更强的新特征。在全部聚类典型相关性中,性能最优的是SRxt50–SRxt101,这表明:SRxt50和SRxt101这两类SENet特征间存在较强的底层相关性,该相关性被改进的CCCA模型所捕获,进而准确刻画待推荐电影海报图像。此外,由图2(a)还可知:采用聚类典型相关性特征建立的模型的推荐性能均优于采用单特征(包括传统特征和SENet特征)建立的模型,这说明改进的CCCA模型是有效的,它能挖掘出具有足够多判别语义的特征,提升推荐性能。
在MovieLens–1M–WMI数据集上可得到与图2(a)相似的实验结论,其中,SRxt50–SRxt101和SR50–SRxt50表现优异,本质原因同上。综上所述,改进的CCCA模型能准确捕获异构SENet特征之间潜在的聚类典型相关性,从而更好地刻画待推荐电影,最终改善推荐性能。当然,基础的VBPR框架在推荐中也扮演了关键角色(参见第2.3节)。
2.2.2 CVABPR模型实验结果在聚类典型相关性分析基础上,引入对抗学习策略,在CVBPR模型基础上构造CVABPR模型,CVABPR模型在两个数据集上的推荐性能如图3所示。
![]() |
| 图3 CVABPR模型中不同特征的推荐性能 Fig. 3 Recommendation performance of different features in CVABPR model |
图3与图2类似,对于传统特征、SENet类特征,仅选择模型在NDCG@3和P@3两个指标上的最优值做展示,对于聚类典型相关性特征,则选取最优的两个模型的指标进行展示。CVABPR相对CVBPR的推荐性能提升幅度见表2。表2中:在MovieLens–100k–WMI数据集上,Improve1和Improve2分别表示CVABPR模型相对于CVBPR模型在P@3指标和NDCG@3指标上的提升幅度;在MovieLens–1M–WMI数据集上,Improve3和Improve4分别表示CVABPR模型相对于CVBPR模型在P@3指标和NDCG@3指标上的提升幅度。
| 表2 CVABPR相对于CVBPR的推荐性能提升幅度 Tab. 2 Recommendation performance improvement of CVABPR compared to CVBPR |
![]() |
由图3(a)可知:在MovieLens–100k–WMI数据集中,聚类典型相关性SRxt50–SRxt101表现最优,它优于各单特征,这说明改进的CCCA模型[20]能生成高质量聚类典型相关性,准确描述用户偏好并最终改善推荐性能。在MovieLens–1M–WMI数据集上也能获得较高的性能,故模型具备较强鲁棒性,而对抗学习是确保该鲁棒性的关键。相比于图2,图3中推荐效果更优,即CVABPR模型性能优于CVBPR模型。
由表2可知,在数据集MovieLens–100K–WMI上,对于P@3和NDCG@3指标,使用聚类典型相关性特征SRxt50–SRxt101建立的CVABPR模型比CVBPR模型(图2(a))分别提升4.18%和4.30%(MovieLens–1M–WMI数据集类似),这进一步表明,引入对抗学习策略使推荐模型能更好地应对外部噪声扰动,提升模型鲁棒性并获取更优的推荐效果。
综上,采用对抗学习策略,能使推荐模型更好地应对外部扰动,从而变得更稳定、鲁棒,即对抗学习使CVABPR模型中的视觉特征潜语义描述能更好地抵御外界噪声干扰,从而准确描述待推荐电影,完成高质量用户兴趣建模,从视觉内容角度积极应对数据稀疏问题并最终改善推荐精度及模型鲁棒性。因此,对抗学习策略在CVABPR模型中扮演非常重要的角色。
2.2.3 与主流基线对比选择CVABPR模型的最佳结果(图3)与第2.1节所述主流推荐模型进行性能对比,结果见表3和4。表3中,Improve5表示在MovieLens–100k–WMI数据集上,与最强基线APR模型相比,CVABPR模型推荐性能的提升幅度。表4中,Improve6表示在MovieLens–1M–WMI数据集上,与最强基线APR模型相比,CVABPR模型推荐性能的提升幅度。
| 表3 CVABPR模型与主流基线性能结果比较(MovieLens–100k–WMI) Tab. 3 Performance comparisons between CVABPR and state-of-the-art baselines (MovieLens–100k–WMI) |
![]() |
| 表4 CVABPR模型与主流基线性能结果比较(MovieLens–1M–WMI) Tab. 4 Performance comparisons between CVABPR and state-of-the-art baselines (MovieLens–1M–WMI) |
![]() |
如表3、4所示,CVABPR模型获得最佳性能,与协同过滤式推荐模型MLE[25]、BPR[5]和LambdaFM[26]相比 ,可观察到最大的推荐性能差距。因为传统模型仅使用“用户–评分”矩阵完成推荐,该矩阵只包含用户对电影的评分,数据稀疏问题非常严重(参见表1的稠密度)。与DMF[24]和NMF[25]等深度学习类推荐模型相比,CVABPR模型的优势也十分显著。CVABPR模型提供全新的视觉特征接口,该接口可以将外部语义(如聚类典型相关性)集成到推荐模型中,然后配合“用户–评分”矩阵完成推荐。显然,引入图像信息能更好地刻画待推荐电影,实现高质量用户建模,以准确描述其偏好,即从视觉内容角度有效缓解推荐中的数据稀疏问题。与IRGAN[14]、GraphGAN[15]、UPM–GAN[23]和APR[17]等对抗学习类推荐模型相比,CVABPR也表现优异。不同于这些GAN模型,CVABPR模型引入了异构特征间的深层语义(聚类典型相关性),能更好地描述待推荐电影。同时,CVABPR中还加入扰动因子,使视觉特征潜语义描述能更好地应对外部干扰,从而完成更稳定的推荐并获得更优的推荐性能。
表4中:相比于MovieLens–100k–WMI数据集,CVABPR模型在稀疏度更高的MovieLens–1M–WMI数据集上获取了更大的性能提升,对于NDCG@5和MAP指标,CVABPR模型在MovieLens–1M–WMI数据集上的性能明显优于MovieLens–100k–WMI数据集。这表明所提的CVABPR模型在更稀疏的数据集上能更好地应对数据稀疏问题。同时,CVABPR模型在这两个数据集上相对于APR模型的平均性能提升幅度分别是2.273%、3.252%,显然,CVABPR模型在更稀疏的数据集上获得了更大的平均性能提升。这可能是因为:MovieLens–1M–WMI数据集包含更丰富的图像数据,改进的CCCA模型能挖掘出判别性更强的聚类典型相关性,为描述用户隐含偏好奠定坚实基础。因此,CVABPR模型在聚类典型相关性分析基础上获取了更多有价值的语义信息,更准确地刻画了待推荐电影,从视觉内容角度可有效地应对数据稀疏问题。
2.3 消融分析实验通过消融分析实验来分别检验CVABPR模型各部件,包括视觉接口(V)、聚类典型相关性(C)、对抗学习策略(A)等在推荐中的有效性。构造3个CVABPR模型的变种(VABPR、CVBPR、BPR),完成消融分析实验,计算P@3、MAP、NDCG@3这3类指标及各类指标均值Mean,结果见表5。
| 表5 CVABPR模型消融分析实验结果 Tab. 5 Ablation analysis results of CVABPR |
![]() |
1)VABPR :从CVABPR模型中移除聚类典型相关性分析(C),获取VABPR模型。表5中,VABPR对应行的值表示VABPR模型相对CVABPR模型的性能下降幅度,故其着力评价聚类典型相关性的重要性;
2)CVBPR :从CVABPR模型中移除对抗学习策略(A),获取CVBPR模型。表5中,CVBPR对应行的值表示CVBPR模型相对CVABPR模型的性能下降幅度,故其着力评价对抗学习策略的重要性;
3)BPR:从VBPR模型中移除视觉接口(V),获取BPR模型。表5中,BPR对应行的值表示BPR模型相对VBPR模型的性能下降幅度,故其着力评价视觉接口的重要性。
由表5可知:当移除视觉接口后,推荐模型性能出现最大幅度下降;移除对抗学习策略也会导致较大幅度下降;而移除聚类典型相关性,推荐模型的性能下降幅度相对较小。因此,基于平均值(Mean)可得到CVABPR模型各部件重要性的降序排列:视觉接口(V)重要性>对抗学习(A)重要性>聚类典型相关性(C)重要性。CVABPR模型充分利用电影海报图像中蕴含的聚类典型相关性来提升模型推荐性能,即充分挖掘并利用异构SENet图像特征之间的深层视觉语义;而对抗学习则使推荐模型更趋稳定且鲁棒,并获取更优推荐性能。由表5还发现:基于MovieLens–1M–WMI数据集建立的模型性能下降幅度更大,即CVABPR模型能在更稀疏的数据集上获取更大的性能提升,数据稀疏问题得到一定解决。该实验结论与表3、4吻合。
3 结论与展望为解决推荐中的数据稀疏、未有效利用深层视觉语义、模型鲁棒性较低等问题,提出相关性视觉对抗贝叶斯个性化排序推荐模型CVABPR,它从SENet特征提取、聚类典型相关性分析和对抗学习等角度积极应对上述问题。实验结果表明:CVABPR模型在MovieLens–100k–WMI和 MovieLens–1M–WMI两个数据集上都取得较好推荐效果,已具备较强鲁棒性。
未来工作展望:1)运用其他特征学习方法,如Transformer[31],获取更有效的图像特征;2)基于Unicoder–VL[32]和LXMERT[33]等模型更好地挖掘异构图像特征间的相关性。
| [1] |
Sun Yusheng,Zhu Jinhong,Li Yaqi. Research development of information recommendation based on big data in China:Core content[J]. Modern Information, 2020, 40(8): 156-165. [孙雨生,朱金宏,李亚奇. 国内基于大数据的信息推荐研究进展:核心内容[J]. 现代情报, 2020, 40(8): 156-165. DOI:10.3969/j.issn.1008-0821.2020.08.017] |
| [2] |
Rennie J D M,Srebro N.Fast maximum margin matrix factorization for collaborative prediction[C]//ICML 2005:Proceedings of the 22nd International Conference on Machine learning.New York:Association for Computing Machinery,2005:713–719.
|
| [3] |
Zhou Xun,He Jing,Huang Guangyan,et al. SVD-based incremental approaches for recommender systems[J]. Journal of Computer and System Sciences, 2015, 81(4): 717-733. DOI:10.1016/j.jcss.2014.11.016 |
| [4] |
Sun Jigui,Liu Jie,Zhao Lianyu. Clustering algorithms research[J]. Journal of Software, 2008, 19(1): 48-61. [孙吉贵,刘杰,赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1): 48-61. DOI:10.3724/SP.J.1001.2008.00048] |
| [5] |
Salakhutdinov R,Mnih A.Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]//ICML 2008:Proceedings of the 25th International Conference on Machine Learning.New York:ACM,2008:880–887.
|
| [6] |
He R,McAuley J.VBPR:Visual Bayesian personalized ranking from implicit feedback[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Phoenix:AAAI,2016,30(1):144−150.
|
| [7] |
Zhang Jing,Peng Qinke,Sun Shiquan,et al. Collaborative filtering recommendation algorithm based on user preference derived from item domain features[J]. Physica A:Statistical Mechanics and Its Applications, 2014, 396: 66-76. DOI:10.1016/j.physa.2013.11.013 |
| [8] |
Chu Weita,Tsai Y L. A hybrid recommendation system considering visual information for predicting favorite restaurants[J]. World Wide Web, 2017, 20(6): 1313-1331. DOI:10.1007/s11280-017-0437-1 |
| [9] |
Zhang Yujun,Han Bing,Gao Xinbo,et al.Personalized travel recommendation via multi-view representation learning[C]//Proceedings of Chinese Conference on Pattern Recognition and Computer Vision.Xi’an:Springer,2019:97–109.
|
| [10] |
Gao Xiaoyan,Feng Fuli,He Xiangnan,et al. Hierarchical attention network for visually-aware food recommendation[J]. IEEE Transactions on Multimedia, 2020, 22(6): 1647-1659. DOI:10.1109/TMM.2019.2945180 |
| [11] |
Luo Haihua,Zhang Xiaoyan,Guoy G.Convolutional attention model for restaurant recommendation with multi-view visual features[C]//Proceedings of the 2020 IEEE International Conference on Image Processing.Abu Dhabi:IEEE,2020:838–842.
|
| [12] |
Ji Zhenyan,Yang Chun,Wang Huihui,et al. BRS CS:A hybrid recommendation model fusing multi-source heterogeneous data[J]. EURASIP Journal on Wireless Communications and Networking, 2020, 2020: 124. DOI:10.1186/s13638-020-01716-2 |
| [13] |
Gao Li,Yang Hong,Wu Jia,et al.Recommendation with multi-source heterogeneous information[C]//Proceedings of the Twenty-seventh International Joint Conference on Artificial Intelligence.Stockholm:AAAI,2018:3378–3384.
|
| [14] |
Wang Jun,Yu Lantao,Zhang Weinan,et al.IRGAN:A minimax game for unifying generative and discriminative information retrieval models[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2017:515–524.
|
| [15] |
Wang Hongwei,Wang Jia,Wang Jialin,et al.GraphGAN:Graph representation learning with generative adversarial nets[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New Orleans:AAAI,2018.
|
| [16] |
Wang Qinyong,Yin Hongzhi,Hu Zhiting,et al.Neural memory streaming recommender networks with adversarial training[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM,2018:2467–2475.
|
| [17] |
He Xiangnan,He Zhankui,Du Xiaoyu,et al.Adversarial personalized ranking for recommendation[C]//Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval.New York:ACM,2018:355–364.
|
| [18] |
Yang Deqing,Guo Zikai,Wang Ziyi,et al.A knowledge-enhanced deep recommendation framework incorporating GAN-based models[C]//Proceedings of the 2018 IEEE International Conference on Data Mining.Singapore:IEEE,2018:1368–1373.
|
| [19] |
Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132–7141.
|
| [20] |
Zhang Hongbin,Xiong Qipeng,Jiang Ziliang,et al. Material image recognition combining heterogeneous-layer feature fusion of SENet and ensemble learning[J]. Control and Decision, 2022, 37(6): 1632-1642. [张红斌,熊其鹏,蒋子良,等. 联合SENet异构层特征融合与集成学习的材质图像识别[J]. 控制与决策, 2022, 37(6): 1632-1642. DOI:10.13195/j.kzyjc.2020.1559] |
| [21] |
Social Computing Research at the University of Minnesota [EB/OL].[2020–12–03].http://files.grouplens.org/datasets/movielens
|
| [22] |
Version Control Software Source Code Hosting Service Platform[EB/OL].[2021–03–07].https://github.com/CVABPR/Datasets
|
| [23] |
Li Guangli,Hua Jin,Yuan Tian,et al. Recommendation system based on users’ preference mining generative adversarial networks[J]. Journal of Frontiers of Computer Science & Technology, 2020, 14(5): 803-814. [李广丽,滑瑾,袁天,等. 基于用户偏好挖掘生成对抗网络的推荐系统[J]. 计算机科学与探索, 2020, 14(5): 803-814. DOI:10.3778/j.issn.1673-9418.1905090] |
| [24] |
He Xiangnan,Liao Lizi,Zhang Hanwang,et al.Neural collaborative filtering[C]//Proceedings of the International Conference on World Wide Web.Perth:WWW,2017:173–182.
|
| [25] |
Rocca M,Porzio G C,Vitale M P,et al.Finite sample behavior of MLE in network autocorrelation models[C]//Classification,(Big) Data Analysis and Statistical Learning.Cham:Springer,2018:43–50.
|
| [26] |
Yuan Fajie,Guo Guibing,Jose J M,et al.LambdaFM:Learning optimal ranking with factorization machines using lambda surrogates[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management.New York:ACM,2016:227–236.
|
| [27] |
Rennie J D M,Srebro N.Fast maximum margin matrix factorization for collaborative prediction[C]//Proceedings of the 22nd International Conference on Machine learning.Bonn:ICML,2005:713–719.
|
| [28] |
Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2014–09–04)[2021–03–06].https://arxiv.org/abs/1409.1556
|
| [29] |
Yang Tao,Zhang Senlin. Approach of vehicle plate extraction based on HSV color space and SIFT feature[J]. Application Research of Computers, 2011, 28(10): 3937-3939. [杨涛,张森林. 一种基于HSV颜色空间和SIFT特征的车牌提取算法[J]. 计算机应用研究, 2011, 28(10): 3937-3939. DOI:10.3969/j.issn.1001-3695.2011.10.092] |
| [30] |
He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:770–778.
|
| [31] |
Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:Curran Associates Inc,2017:6000–6010.
|
| [32] |
Li Gen,Duan Nan,Fang Yuejian,et al.Unicoder-VL:A universal encoder for vision and language by cross-modal pre-training[C].//Proceedings of the AAAI Conference on Artificial Intelligence.New York:AAAI,2020,34(7):11336–11344.
|
| [33] |
Tan H,Bansal M.Lxmert:Learning cross-modality encoder representations from transformers[EB/OL].(2019–08–20)[2022–03–06].https://arxiv.org/abs/1908.07490
|
2022, Vol. 54








