第7期 宋真真,等:协同过滤技术在个性化推荐中的运用 1061 出运用SVD维数简化技术对用户一项目评分矩 阵进行规范、简化,然后运用聚类算法划分用户, 将划分作为邻居集,最后通过协同过滤的基本算 法来预测评分,产生推荐项目给目标用户的改进 方法。 2.1 LST/SVD维数简化 LSI(Lantent Semantic Indexing)是一个降 维技术,广泛应用于信息检索领域来解决“同义 词”与“多义词”问题。给定一个关键词一文档矩 阵,LSI构建2个低维矩阵。一个矩阵标示关键 词的潜在属性,这一点通过它在各篇文档中间的 出现频率表现;另一个矩阵则通过中间包含的关 键词标识文档的属性。协同过滤算法试图通过对 用户的评分来确定用户之间的近似关系。 通过降低商品空间的维度,就能够增加矩阵 的密度而更容易计算近邻。同时发掘数据集中的 商品之间的潜在联系,也有助于解决推荐系统中 的同义词问题。 奇异值分解[7]作为一种矩阵分解的算法,使 简化后的正交矩阵比原始矩阵降低了噪音,而且 更能揭示出用户和商品的潜在联系。SVD矩阵 分解技术将一个mX咒阶的矩阵R分解为3个矩 阵,即 R=USV 其中,【,和V分别是 ×r和咒×r的正交矩 阵(UU =VV 一J);r是矩阵R的秩,r≤min(m, 咒);S是r×r的对角矩阵,通常对于矩阵R一 V,、U、S、V必须是满秩的,但奇异值分解有一 个优点,它允许存在一个简化的近似矩阵。对于 s,保留志个最大的奇异值,其余的用0来替代。 这样,就可以将s简化为仅有志个奇异值的矩阵 (志<r)。由于引入了0,因此可以将s中值为0 的行和列删除,得到一个新的对角矩阵 ,如果 矩阵【,、V据此简化得到矩阵 、 ,那么有重构 的矩阵 一UkS Vt , ≈R。奇异值分解能够生 成初始矩阵R的所有秩等于志的矩阵中与矩阵R 最近似的一个。 开始时,用户一项目评分矩阵是非常稀疏的, 为了获得有意义的潜在联系,首先可用2种方法 来填充稀疏的用户一项目评分矩阵:使用一个用 户的平均评分;使用一个项目的平均评分。利用 项目的平均评分来填充评分值为0的稀疏项可得 到较好的结果。使用规范化技术对每个评分减去 用户的平均评分,规范化后,获得了一个充满数据 的规范化的矩阵Rnorm。进行规范化的目的是 因为选择商品数量不同的用户,对相似度计算结 果的影响不同,容易造成偏差,规范化为相同长度 后,选择商品数目较多的用户对相似度计算结果 的影响降低了。具体算法过程如下: (1)用SVD方法分解矩阵Rnorm,得到矩阵 【,、S、V 。 (2)将矩阵s简化为维数为志的矩阵,得到 (志<r)。 (3)计算 的平方根得到s2 。 (4)计算两个相关矩阵 s{ (用户矩阵)、 V (项目矩阵)。 这2个相关矩阵可以用来计算任意用户C对 任意项目i的预测评分,通过计算用户矩阵第C 行和项目矩阵第i列的点积,然后加上用户的平 均评分就可得预测评分 即 . —U 4-Uksl (c) V ( ) 2.2聚类的应用 聚类技术能够识别有相似喜好的用户簇,一 旦簇建立,可以使用簇中其他用户的平均观点对 目标用户进行预测。聚类技术通常在个性化方面 比其他的推荐技术稍差一些,在推荐精度方面不 如协同过滤推荐技术,但是聚类一旦完成性能会 非常好。 可扩展邻居算法的基本思想是在协同过滤系 统中使用聚类算法划分用户,并使用划分作为邻 居,每个划分代表一个簇,如图2所示。协同过滤 算法首先使用聚类算法,将用户一项目评分数据 集A分成P个划分:A ,Az,…,A ,其中A n 一 ,A UA2 U…UA 一A。聚类算法可以产生 固定尺寸的划分,或基于相似度阈值产生不同尺 寸的划分个数。下一步骤,搜寻目标用户C属于 哪个划分,然后将该划分A作为目标用户C的邻 居。最后通过协同过滤的基本算法来预测评分, 产生推荐项目给目标用户。 数据集(基于 应用聚类算法 用户相似度) 后的数据集 ● ●● _ o o o o \ ’瀚 目标用户 图2使用聚类技术形成邻居 聚类划分的方法有很多,本文采用一种最常 用的划分方法k-meansE引。算法的基本思想是: 维普资讯 http://www.cqvip.com 1062 合肥工业大学学报(自然科学版) 第31卷 给定一个包含咒个数据对象的数据库,以及要生 成的簇的数目k,一个划分类的算法将数据对象 组织为k个划分(是≤咒),其中每个划分代表一个 簇。通常会采用一个划分的准则(经常称为相似 度函数),例如距离,以便在同一个簇中的对象是 “相似的”,而不同簇中的对象是“相异的”。 输入:簇的数目k和包含咒个对象的数据库。 输出:k个簇,使平方误差准则最小。 方法如下: (1)任意选择k个对象作为初始的簇中心。 (2)repeat。 (3)根据簇中对象的平均值,将每个对象(重 新)赋给最类似的簇。 (4)更新簇的平均值,即计算每个簇中对象 的平均值。 (5)until不再发生变化。 3实验结果与分析 实验使用的数据集来自Minnesota大学 GroupLens Research项目组收集的MovieLens 数据集。MovieLens站点是一个基于web的研 究型推荐系统,建立于1977年,每星期都有上百 的用户访问该系统,进行电影评价和获得关于电 影的推荐。 随机截取100个用户对800部电影的评分数 据,然后将评分数据按0.9的比率划分为训练集 和测试集。评价值为从1~5的整数,数值越高, 表明用户对该电影的偏爱程度越高。 评价推荐系统推荐质量的度量方法中,平均 绝对偏差EMA(mean absolute error)易于理解,可 以直观地对推荐质量进行度量,是最常用的一种 推荐度量方法。本文采用平均绝对偏差作为度量 标准,通过计算预测的用户评分与实际的用户评 分之间的偏差来度量预测的准确性,平均绝对偏 差越小,推荐质量越高。设预测的用户评分集合 为{P ,Pz,…,P },对应的实际用户评分集合为 {q ,q ,…,q },则平均绝对偏差定义为 ∑l P —q EJ 一 咒 实验以传统的基于余弦相似度的协同过滤推 荐算法和基于Pearson相似度的协同过滤算法作 为参照,分别计算其平均绝对偏差,然后与改进的 推荐方法比较,随着邻居集 大小的变化,预测 的效果也有所不同,实验结果见表1所列。 表1最近邻居集大小对预测效果的影响 1.O8 1.O3 0.92 1.09 1.O5 O.89 1.06 O.99 0.90 1.05 0.97 0.87 1.O3 O.96 0.85 0.99 0.94 0.81 0.98 0.89 O.78 由于改进后的方法将SVD技术应用于协同 过滤推荐算法,实现了维数的简化,提高数据的密 度,从而较好地解决了数据稀疏性的问题。同时 因为是《咒,计算的开销也有相应的降低,有利于 解决推荐算法的伸缩能力问题。而使用聚类的方 法生成最近邻居,一是可以减少数据集的稀疏性, 二是由于降维与静态的用户邻居预计算,预测产 生的速度更快。 如图3所示,本文提出的改进方法同传统的 协同过滤推荐算法相比,具有较小的EMA值。 l0 l5 20 25 30 35 40 j 1.基于余弦相似度的传统算法 2.基于Pea ̄on相似度的传统算法 3.本文改进算法 图3 3种推荐算法的比较示意图 4结束语 个性化推荐技术目前被广泛地应用于众多领 域,是一个极具挑战的研究方向。本文介绍了传 统的协同过滤推荐算法,并针对其存在的不足提 出运用SVD维数简化和聚类的方法,对传统协同 过滤推荐算法进行改进。 实验证明,改进后的推荐方法较好地解决了 数据稀疏性的问题,减少了计算的耗费,同时提高 (下转第1148页) 维普资讯 http://www.cqvip.com 1148 合肥工业大学学报(自然科学版) 将以上2 m个不等式相加,得 第31卷 Jn[f(x,U2m)一厂(z, )](U2m D )4 0 从而 ’『。茎 > ’『。茎 矛盾,所以问题(3)无正解。 jJ’ 。ln DW: ≤ AA i Jj’ W2n ≤ 2 } Jf + ]n 。 利用Poincare不等式及条件(A ),可推出 [参考文献] .『I Dw: I ≤ [1 Dw l +l Dwz I ] (11) Eli Chou K S Asymptotics of positive solution for a bihannon— ic equation involving ciritcal exponent[J].Differential and Integral Equation,2003,13(7/9):921--924. Ezl Pucd P,Serrin J.Critical exponents and critical dimensions for olpyharmonic operators ̄J].J Math Pareset Appl,1990, 69:55—83. 将(10)式中2m--1个不等式与(11)式中不 等式相加,可推出Dvdk一0,k一1,2,…,2m,x∈ n;结合wk一0,xffan,知wk三0,x∈n,k一1,2, …[3]Xuan Beniin,Chen Zuchi.Existence mukiplicity and bifurca-- iton for ciritacl olpyharmordc equations[J-].System Science and Mathematical Science,1999,12(1):59—69. ,2 。从而U—V,即问题(9)的解惟一。 2解的不存在性 记 —infl,z(z)l。 [4]钟金标,戴习民.一类双调和方程的可解性[J].合肥工业大 ・ 学学报(自然科学版),2004,27(5):548--551. [5]Van der Vorst R C A M Fourth order elliptic equations with ciritcal groasth[J-[.C R Acad Sci Pairs Ser I Math, 1995,320:295—299. 定理6设(A:)(A。)成立,当 > } 时,问 题(3)无正解。 证明记9>0为一△算子在零_Dirichlet边 [6]陆文端.微分方程中的变分方法[M].成都:四川大学出版 社,1995:143—151. 值条件下,相应于第一特征值的特征函数。将问 [7]Zhong Jinbiao,Chen Zuchi.Existence ad nnonexistence of positive radiial solutions for a class of semilinear elliptic sys'- 题(3)中的各方程两边乘以 ,并在n上积分,利 用格林第2恒等式,得 1temsEJ].Systems Science ad Complnexity,2004,17(3): 325—331. j 一21 Jau ̄-1 k ,2,…’2 [8]Deimling K Nonlinear functional analysis[M].Berlin: Springer,1985:10--90. .『 z 一 .『。,z(z) + .『。厂(z, ≥ .『。,z cz >嘉.『 > .『n 【上接第1062页) (责任编辑吕杰) egg:a new graph-theoretic approach to collaborative filte-。 了推荐的准确率。今后将进一步对混合推荐策略 和算法、推荐系统的实时性与推荐质量之间平衡 问题等方面进行研究和探索。 irg[nC/0L]//Proceedings of te ACM hSIGMOD Interna-。 itonal Conference on Knowledge Discovery and Data Min-- ing,San Diego,1999:201--212,.http://www.wanfangda-。 ta.corp.cn/qikan/periodica1.articles/xxwxjsjxt/xxwx2006/ 0603/060306..htm,2007"-04—07.. Deng,Lu Zengxiang,Li Yanda.Co[5] Caillaborative Filtering [参考文献] [1] 曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学 报,2002,13(1O):1952—1960. B,Karypis G,Konstan J,et a1.AnalyS of recom— [2] Sarwar[J].Journal of omputCer ciSence,2002,29(6):1—4. B,Karypis G,Konstan J,et a1.Item-based collab‘ [6] Sarwar orative ifkering recommendation algoritms[hC]//Prceoed— igs of nthe 10th International Worm W e W'eb onference,C 2001:285—295. mendation algorithms for E-commerce[C/OL]//ACM onfCerence on Electronic Commerce,2000:158—167.ht— tp://wv ̄.wanfangdata.corp.cn/qikan/periodia1c.Arti— des/ ̄qhdxxb/qhdx2006/06zl/06z123.htm,2007‘O3—23. A,Laird N,Rubin n Maximum likelihood from [3] Dempster[7] 赵亮,胡乃静,张志守.个性化推荐算法设计[J].计算机 研究与发展,2002,39(8):986--990. Jiawei,Kamber M数据挖掘概念与技术[M].范 [8] Han明,孟小峰译.北京:机械工业出版社,2001:223—236. incomplete data via the EM algoritm[J].Johurnal of the Royal S1:afistical Society,1977,B39:1—38. f J,Aggarwal C,Wu K L,et aL.Honig hatches an n[4-I Wol(责任编辑吕杰)
因篇幅问题不能全部显示,请点此查看更多更全内容