首页范文大全计算机研究生推荐方向十篇计算机研究生推荐方向十篇

计算机研究生推荐方向十篇

发布时间:2024-04-26 01:03:11

计算机研究生推荐方向篇1

关键词:iptV;相似度计算;个性化推荐

中图分类号:G20文献标识码:a文章编号:1672-8122(2017)06-0122-02

一、引言

iptV(internetprotocoltelevision)全名网络协议电视,是集互联网技术、多媒体技术和通讯等多种技术于一体,使用“互联网机顶盒+普通电视机或计算机作为用户终端”,为用户提供节目直播、视频点播、手机互动、3D游戏、教育娱乐等多种交互式服务的网络电视。iptV的节目通过广播,组播,单播等方式,实现了比传统电视更人性化的服务,如:互动电视、预约节目、实时的快进及计费等管理方面的功能。除此之外,iptV还能开展和互联网相关的其它业务,如电子邮件、电子理财和网络游戏等。iptV的发展使传统的电视用户在选择自己喜欢的节目方面有个更大的自由空间,但是,传统的电视用户,在这些海量资源中如何快速找到自己喜欢的资源,如何快速定位到自己喜欢的节目变成了一个难题,因此设计具有个性化智能推送的系统也迫在眉睫。

二、个性化推荐技术研究现状

个性化推荐就是建立用户兴趣模型,计算用户对信息的感兴趣程度,研究适合用户的个性化内容推送技术,实现将用户喜欢的内容准确的推送给用户。1995年个性化服务技术的概念被正式提出,标志性事件是在美国宾夕法尼亚州的卡内基梅隆大学,由Robertarmstrong等人提出的一个名为webwatcher的系统。我国开始个性化服务研究的标志性事件是路海明提出的基于多agent混合智能个性化推荐系统[1]。随着互联网技术的发展,网民数量日益增多,《中国互联网络发展状况统计报告》中指出,截至2016年12月,我国网民数量已达7.31亿,很多领域的网民数量还出现了爆发式的增长,在这种态势下个性化推荐的研究也一定是热点。常见的推荐有购物类网站提供的商品推荐,行业类网站提供的信息推荐,视频类网站提供的视频推荐,门户类网站提供的消息推荐等。个性化推荐带来的便利使越来越多的用户加入其中,也促使越碓蕉嗟难д吆图际跞嗽辈斡氲礁鲂曰服务系统的研究之中。因此在iptV发展过程中,个性化推荐技术的研究具有重要的意义。

1.基于用户特性和资源特征的内容推荐

基于内容的推荐技术是信息检索领域的研究内容,该方法来源于信息获取领域,该推荐方法要为每个需要推荐的资源建立该资源的属性档案,再为每个用户构建一个用户的喜好档案,计算用户的喜好档案与资源属性档案的相似度,相似度高说明用户喜欢该资源,否则表示不喜欢该资源,根据喜好与否进行推荐。该方法要在需要推荐的资源中进行特征提取,利用加权的方法使那些显著特征具有较高的权重,参考用户的评价修改权重,并将资源的特征向量按比例加入到用户特征向量中。计算推荐的依据可以利用余弦相似度的公式来计算,余弦相似度的计算方法为:

其中:US表示用户对某资源S的喜好值,iS表示资源i中包含S的值。

基于内容推荐只利用用户特征和资源特征,因此适用于易于提取特征的文本内容的推荐。该推荐根据资源的特征匹配,而且由于是基于用户以前的兴趣,并不能为用户找到新的兴趣,所以对于新用户,没有办法根据以往的历史数据发现兴趣,因此无法得到准确推荐[2]。基于内容的推荐,如果想达到好的推荐效果只有等用户有一定的记录量后才有可能实现。基于内容的推荐系统有:ifweb、SiFteR、webpersonalizer、eLFi和webaCe等,这些系统的出现使基于内容的推荐研究得到了充分的实现。

2.基于用户和项目的协同过滤推荐

协同过滤技术是目前研究比较成功也是应用较多的一种推荐技术。协同过滤技术可分为两类:一类是基于用户(User-Based)的协同过滤,一类是基于项目(item-Based)的协同过滤。

基于用户的协同过滤基本原理是:基于用户对物品的喜好找到相邻邻居,将相邻邻居喜欢的物品推荐给当前用户[3]。例如,在一个个性化推荐系统中,向用户推荐时,通过计算找到与该用户有相似兴趣的其他用户,根据邻居的相似度权重,以及他们对物品的偏好,为当前用户生成一个排序的推荐列表,这种方法为基于用户的协同过滤算法。基于用户的协同过滤算法主要包括两个步骤:

(1)找到和推荐用户相似的用户集合。

(2)在这个集合中找到用户喜欢的,且推荐用户没有的物品进行推荐。

基于项目的协同过滤和基于用户的协同过滤原理相类似,不同的是在计算邻居时不是从用户的角度,而是从项目(或称为物品)角度,即通过分析项目之间的相似性进行推荐。该推荐算法采用统计技术,找到与目标项目有相似评分的邻居项目,选择预测评分高的前若干项推荐给目标用户[4]。比如:对于物品甲,根据所有用户的历史记录分析发现喜欢物品甲的用户都喜欢物品乙,可以得出物品甲和物品乙有很高的相似度,所以当向喜欢物品甲的用户进行推荐时,可以推断该用户可能喜欢乙,并进行推荐。

基于协同过滤的推荐从应用的角度看是现今比较成功的推荐技术之一,很多网站都采用了这种方法进行推荐,如亚马逊、当当网等。基于内容的推荐只分析资源文本内容,而基于协同过滤的推荐加入了用户对项目的评分,因此不仅能推荐除文本之外的其他资源,还避免了对资源内容表达和推荐不准确等问题,同时由于协同过滤算法是利用最近邻居进行推荐,因此有助于发现用户潜在的兴趣,这也是协同过滤技术应用较多的原因。

3.基于联合技术的混合推荐

在推荐系统中,为了提高推荐精度经常把不同的推荐算法联合起来,这种联合技术称为混合推荐。目前,最常用的混合推荐就是把基于内容的推荐和协同过滤推荐联合起来。联合的方法主要有加权、转换、融合、特征联合、级联、特征增加、分层。混合推荐具有更好的准确率,常见的混合推荐技术是在协同过滤的推荐系统中加入基于内容的推荐算法。对于混合推荐的研究目前比较有代表性的有:Velasquez等提出的基于知识的web推荐系统;aciar等实现的是基于知识和协同过滤的混合推荐系统;wang等提出的基于虚拟研究群体的知识推荐系统[5]。

三种推荐技术各有特点也有其不足之处,其中基于内容的推荐技术需要较高的文本分类技术,而且只能实现相似内容的推荐。各网站应用较多的基于协同过滤技术虽然有很多优点,但是在刚开始使用时,想通过计算找到与目标用户的相似用户比较困难,可扩展性也差。混合推荐技术是将上述两种技术进行组合而产生的混合推送策略,能结合实际情况选择恰当的混合策略,进而提高推送质量。

4.其它的推荐技术

除了上述所说的三种推荐技术外,还有很多其它的推荐技术。一是通过用户行为的关联模式进行推荐的基于关联规则分析的方法。如:agrawal等通过对用户与物品间关联规则的分析提出的apriori推荐算法;二是基于社会网络分析的方法。如:wand等对在线拍卖系统中的拍卖者进行推荐时就利用了社会网络分析方法;三是基于上下文知识的方法。如:郭磊等提出的结合推荐对象间关联关系进行推荐的算法就是利用推荐对象间的关联关系实现的。

三、用户兴趣模型的创建

要创建用户的兴趣模型,需要计算用户的兴趣度。为了计算用户兴趣度,通常要把用户的兴趣划分为多个具体的兴趣特征,先计算这些具体的兴趣特征的兴趣度,再用兴趣特征的兴趣度来计算和表示用户的兴趣度。目前,用户兴趣度大部分是采用二维向量表示的,随着时间的变化,人的主观认识会发生变化,d趣会发生变化,对某件事的兴趣度也会发生变化,但是用户兴趣的二维向量是不变的,因此不能动态的反映用户兴趣和对某件事兴趣度的实时变化。所以我们可以在表示用户兴趣时加上时间因素,也就是给兴趣打上时间的标签,这样可以更好地区分用户兴趣的变迁,重新构建新的用户兴趣模型。

1.用户行为数据的采集及建模

个性化用户模型的表示通常根据项目实际要求来选取特定的表示方法,既要考虑模型是否反映用户的真实信息,还要考虑系统本身的实际计算能力。目前,常用的表示方法有:基于矢量空间模型表示法、基于概率模型表示法(分类模型的训练可以采用朴素贝叶斯方式)、基于本体论的表示法、基于粗细兴趣度表示法、基于用户-项目矩阵表示法。计算的目的是让系统自动地分析获取用户感兴趣的敏感词,然后自动进行个性化模型创建。

2.用户兴趣模型的建立

要创建用户兴趣模型,首先要做的是用什么方法来表示用户兴趣模型,然后是用户兴趣模型在何时要如何更新。具体实现的方法是对兴趣特征进行多维度、细粒度划分,采用数据挖掘技术、人工智能等知识建立用户的兴趣模型,之后对各粒度进行定量分析,在兴趣模型的基础上加上时间因素,建立基于时间的向量兴趣模型。同时在模型构建时系统还会对数据进行解释、推理并分离出噪声,只留下关于用户兴趣的有用知识,系统通过对这些有用的知识进行格式化形成最终的用户模型。

四、结语

个性化推荐技术的研究可以实现在不需要用户主动提供关键词的情况下,系统就能够自动建立用户感兴趣的信息库,通过计算向用户推荐感兴趣的信息,这是传统搜索引擎无法比拟的,个性化推荐技术研究既有重大的社会价值,也能带来一定的经济效益,同时也能解决现代信息科学中的很多问题。

参考文献:

[1]易伟.基于用户行为的个性化内容推送系统研究[D].华中科技大学,2013.

[2]庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008(16).

[3]肖杰.面向网络电视的推荐系统框架及算法研究[D].华东师范大学,2012.

计算机研究生推荐方向篇2

2017年1月22日,CnniC第39次《中国互联网络发展状况统计报告》,截至2016年12月,在网上预订过机票、酒店、火车票或旅游度假产品的网民规模达到2.99亿,较2015年底增长3967万人,增长率为15.3%。可见,在线旅游发展迅速,但这对于旅游者并不一定是好的现象。因旅游者常被困在大量的信息和产品当中,无法做出选择。而旅游推荐系统则是解决信息过载现象的有效方法。它为用户推荐符合其需求和偏好的旅游产品,以帮助用户快速做出旅游决策。

笔者通过检索中国知网电子期刊全库,共收集到“旅游推荐系统”相关文献100多篇,经过筛选剩下69篇。国内最早出现关于旅游系统推荐的文献是在2006年,并正在成为当前的研究热点。从文献的学科属性来看,主要集中在计算机学科、地理学科、管理学科以及信息技术与旅游的交叉学科中。这主要是因为旅游推荐系统是推荐系统在旅游行业中的应用之一,而推荐系统最初也是来源于信息抽取技术及信息检索技术等与计算机紧密相关的领域,在实现这一系统时往往要用到这些与人工智能相关的理论与技术。国内学者对旅游推荐系统的研究主要集中在旅游推荐系统的研究与设计、旅游推荐系统的方法与技术、旅游推荐项目的研究等方面。

二、旅游推荐系统的研究与设计

推荐系统已经被广泛应用于推荐书、文章、电影、电视节目、新闻、音乐网页等。推荐系统最早的概念是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。1997年at&t实验室提出了基于协同过滤算法的个性化推荐系统,在eBay、Youtube等大型电子商务网站等应用广泛。许多学者基于数据挖掘技术、LBSn(基于位置的社交网络)数据、上下文感知技术、约束、垂直搜索引擎、基于内容的推荐技术和混合推荐技术、加权关联规则、本体、3G手机、云计算、物联网等技术对旅游推?]系统进行研究和设计,向旅游者推荐满足其需求的旅游包、旅游产品、旅游线路、旅游景点推荐及行程路线等。

陈传敬的个性化的旅游推荐系统,根据移动用户的偏好自发的为游客做出个性化的推送服务,帮助用户找到最适合自己的酒店、景点、餐厅、娱乐场所、购物场所等。严杰的旅游电商个性化推荐系统,在大数据的精确分析基础上,再将推荐结果以服务的展示形式推送到旅游电商的各个营销环节,极大的推动了产品购买的转化率。麻风梅,高文的基于internet平台的安康旅游景点在线推荐系统,不仅帮助游客做出旅游决策;还可以提供给旅游企业和相关管理部门,使其更好的管理安康的旅游资源。姚海涛的旅游信息推荐系统,为游客提供各种旅游信息的查询,使游客拥有一个准备充分的出游计划。

三、旅游推荐系统的方法与技术

1.基于内容的推荐

根据用户选择的产品,向用户推荐与该产品属性相似的其它产品。这种技术是利用用户的历史内容来产生用户描述文件的,新的项目将会用于匹配用户描述文件来发现最接近的项目。徐盼等认为应用数据挖掘技术的朴素贝叶斯方法可以为特定需求的用户提供个性化路线推荐。黄飞龙通过收集用户行为数据为用户实时推荐所需信息,使用户在有限时间内游玩景区内感兴趣的景点,为用户的游览路线提供建议。

2.基于协同过滤的推荐

根据用户对产品的偏好,将与该用户偏好相似的其他用户选择的产品推荐给该用户。协同过滤技术可以分为两个子类:一是根据用户的兴趣进行协同过滤,二是根据产品的共性进行协同过滤。张伟伟等、郑外辉、吴清霞等、麻风梅、杨晓飞根据用户兴趣为用户进行个性化的路线、景点或信息服务的推荐。侯新华等利用在线旅游网站上游客对旅游景点的评价数据,使用协同过滤算法为游客推荐旅游景点。李倩等利用互联网上用户口碑,为用户推荐个性化的旅游计划。曹阳考虑了用户评论和各个用户之间的回复关系及各个用户之间回复的时间关系,提出了一种基于游客信息的协同过滤帖推荐方法。方潇通过为目标用户建立邻近用户集来改进协同过滤的算法。史一帆等在协同过滤算法中引入景点标签,使得为用户推荐的景点更准确。

3.基于知识的推荐

这种方法通过对特定领域的知识指定规则进行基于约束的推荐和基于实例的推荐。王显飞等提出一种基于约束的旅游推荐系统的设计方案,系统以会话的方式逐步启发用户的偏好和需要,可以为用户提供更加准确、个性化的旅游推荐服务[8]。方潇、曾令伟等基于关联规则挖掘经典算法apriori,为用户推荐相关服务。张华、陈志刚等基于关联规则的算法,从海量数据库中挖掘个性化信息,为旅游电子商务的用户提供智能推荐。刘小燕等提出了基于增强学习技术的旅行会话推荐系统,帮助用户进行互动式对话获得目标。虞娟基于本体CBR的旅游产品案例方法,为用户推荐相似的旅游产品。

4.基于社会媒体的推荐

这种方法是利用集体智慧,将社会媒体中用户间的社会关系或其它媒体数据运用于推荐中。abdulmajid、刘义海、卢昕根据社会化媒体网站上(如Flikr网站)用户上传的带有地理标签和时间信息的照片,和用户的需求、兴趣为用户提供个性化的旅游路线、旅游信息和旅行计划。刘艳等、胥皇等基于位置的社交网络上关于位置和活动的信息,建立地点和用户偏好模型,根据用户需求为用户提供个性化的旅游景点、旅游包。四、旅游推荐项目的研究

推荐系统应用到旅游领域中,包括对旅游景点、酒店、餐馆等单个旅游产品的推荐,也包括对旅游活动、旅游包、旅游目的地、旅游线路和旅游信息服务等涵盖多产品、多项目的推荐。

1.单个旅游推荐项目

从搜集到的文献中的内容来看,单个旅游项目的推荐主要是对旅游景点、酒店的推荐,文献并不多。胡乔楠、麻风梅等、侯新华等、史一帆等、刘艳等、于蓓佳这些学者利用不同的技术和算法,为用户推荐符合其要求和兴趣的旅游景点。它考虑了用户兴趣偏好和景点流行度的Ciap通过设置相似用户的景点推荐权值和景点流行度权值,得到最优推荐结果。

2.组合旅游推荐项目

胡纳纳等根据用户的兴趣推荐用户喜欢的旅游活动包括运动、景区、交通工具等。胥皇等通过交互地获取用户旅游意向,实时生成多个旅游包供用户选择。杨晓飞根据旅游者不同阶段的兴趣特征,向旅游者推荐目的地。方潇依据用户的历史行为其推荐旅游行程,并能将推荐后的行程进行地图可视化表达。

对于旅游路线的推荐,黄飞龙、曾令伟等、张华、吴春阳、吕红亮等学者根据用户数据和信息为用户推荐满足其个性化需求的旅游线路。郑外辉考虑了游玩景点时影响旅客旅游体验因素及旅游线路中影响游客旅游体验因素,为游客推荐符合其口味的景点旅游路线。卢昕利用含有地理位置信息的照片以及游记所涵盖的旅游信息,根据用户的需求为用户提供个性化的旅游路线规划。尹华罡利用互联网用户分享的海量图片数据通过挖掘用户信息和行为为用户提供个性化的路线推荐服务。

赫磊基于云平?_构建了一个快捷、智能、实时地旅游信息推送系统。张晗的旅游服务智能推荐系统,能够根据用户所提出的需求,结合用户的注册信息和浏览记录,智能地推荐旅游信息服务。许文雕利用云计算、物联网技术,对景区进行智能管理。郁娇娇将云模型的短时交通流预测模型以及交叉口信号优化的模型应用智能旅游系统中,为游客推荐行驶的最佳路线,减少出行时间,缩减出行费用。佘新伟在J2ee平台实现旅游服务推荐系统为游客提供旅游景点推荐、旅游行程规划、旅游线路推荐等服务及旅游相关信息查询服务。

五、旅游推荐系统研究的展望

1.旅游推荐系统的实时性

因为用户兴趣偏好以及对旅游需求会随着时间、地点、身体状况以及心情等的变化而变化,目前的推荐技术还没有考虑到这一点,所以下一步的研究就是随时跟踪捕捉到用户兴趣偏好和旅游需求的变化,根据其变化实时的向用户推荐旅游相关内容。

2.旅游推荐系统的针对性

大部分的推荐方法是基于一些对用户和项目的描述文件的理解来生成评价,而没有充分地利用用户的交互历史和其他可获取的信息。而且现在推荐技术因为缺乏基本的见解而没有能力模仿人的意见与用户进行交互。因此充分利用用户的历史信息和增强与用户交互的能力进而提高旅游推荐服务的的针对性是下一步研究的方向。

3.旅游推荐系统的多元性

传统的推荐系统仅仅是根据用户和产品的信息,而没有考虑其他的上下文信息,这些信息可能对旅游推荐是非常关键的。推荐系统在产品推荐中必须考虑时间、地点、用户的同伴等,如推荐一个旅游包,应该考虑时间、地点、用户跟谁一起去旅行、旅行条件和限制以及其他上下文信息等。规划最合适的旅行计划必须同时考虑几个因素,如景点的访问、当地酒店的选择、旅游预算的计算等。因此,旅游推荐系统从单一性向多元性发展是下一步的研究重点。

计算机研究生推荐方向篇3

关键字协同过滤;个性化推荐;稀疏性

中图分类号tp39文献标识码a文章编号1674-6708(2013)97-0232-02

0引言

随着网络和电子商务的迅猛发展,用户可以在网上随意寻找自己感兴趣的商品,但随着信息爆炸式增长,用户在这过程中浪费了很多时间,个性化推荐系统对电子商务网站的业绩有很深的影响,其主要作用表现在以下几方面:可以把随意浏览网站的潜在客户转变为实际购买者;提升电子商务网站交叉销售能力;提升客户对网站的忠诚度。其中协同过滤技术是目前运用最广泛的个性化推荐技术。

1协同过滤算法

协同过滤技术是通过收集整理过去用户产生的数据来寻找邻居用户,其基本原理是根据相似用户的兴趣来推荐当前用户没有参与但是很有可能会感兴趣的项目,所基于的假设是如果两个用户兴趣类似,那么很有可能当前用户会喜欢另一个用户所喜欢的项目。协同过滤推荐技术分为3个阶段:评分数据表示;最近邻居形成;推荐项目集产生

1)评分数据表示:将用户对于项目的评分收集整理后描述成一个的用户-项评分矩阵,其中m表述用户数,n表式项目数。矩阵中元素表述用户对项目的评分;

2)最近邻居形成:指根据项目评分矩阵来发现目标用户的最近邻居。协同过滤技术是通过计算用户之间的相似性来找到目标用户的最近邻,所以算法的关键就在于如何准确找到目标用户的最近邻。常用的用户之间的相似度算法有pearson相关系数和余弦相似性;

3)推荐项目集产生:目标用户的最近邻居集产生后,可以得出目标用户对未评分项的预测分,将分值按照高低排列,产生top-n的推荐项目集合;

这就导致了协同过滤技术过分依赖于用户评分,但目前电子商务网站的用户和商品数量一直在上升,同时用户对商品项的评分却非常稀少,通常在1%以下,使得用户-项目评分矩阵过于稀疏,导致个性化推荐质量下降:

1)评分矩阵稀疏使得寻找最近邻的准确度降低;

2)冷启动(cold-start)问题,此问题是稀疏性的极端情况,指当新用户或新项目进入到推荐系统中时,由于没有历史数据,导致无法产生推荐集。

针对评分矩阵稀疏性问题许多研究人员对协同过滤算法提出了改进,本文系统的归纳和分析了各算法的研究情况,同时为协同过滤算法提供了几点研究方向。

2改进的协同过滤算法综述

2.1结合项目相似性和时间函数的协同过滤算法

刘芳先等分析传统协同过滤算法的局限于以下三点:

1)传统算法对于用户之间的相似度是通过两用户共同给予的项目评分来计算的,却没有考虑项目是否相关,如一用户对于某书籍的兴趣可能跟他看过的书有关,而跟他评价过的服装没关系;2)随着时间变化用户的兴趣也会变化的,这点传统算法却没有考虑到;3)传统的协同过滤算法在计算项目间相似性,没能将项目特征考虑在内,导致相似性度量不够准确。

在此基础上刘芳先提出来改进算法,其主要思想是将项目的相关性引入到用户相似性的计算公式中,同时在预测新目标项的得分时引入了时间加权函数,时间加权函数能反映出用户对最近点击的项目兴趣较大,新数据对于预测得分影响大,而旧数据体现的是用户之前的兴趣,所以在预测上占权重较小。

这种改进算法在计算用户相似性的时候引入项目相似度,这样可以在一定程度上减少不相关的项目对于推荐结果的影响,同时将时间函数引入了预测得分的公式中,一定程度上反映出随用户趣变化得到推荐集也不同。但是这算法依然对用户-项目评分矩阵依赖性太大,不利于解决数据稀疏性问题。

刘勇在分析了计算项目相似度时碰到的问题:当两项目只有很少用户给予评分,同时给予评分的用户所关注的项目特征可能不是目标用户所关注的特征,这会导致推荐质量下降。基于这类问题,刘勇提出了改进的相似度计算公式:

mutual_num表示对于项目i、j都评分的用户数目,item_num表示对项目i,j中任何一个有评分的用户集合数目。

2.2降维处理

文献[7]为了降低项目评分矩阵的稀疏性,提升推荐精度,提出了一种基于主成分降维技术和K-means聚类的混合协同过滤新算法。算法先对用户-项目矩阵进行缺失值填充,然后运用主成分分析技术提取主成分因子,在降低矩阵的维数同时保证大部分信息没有损失,在降维后的向量空间上进行K-means聚类,找到目标用户的最近邻,最后得到目标用户对于未评分项目的预测值,从而产生推荐集。该算法在一定程度上缓解超高维空间寻找最近邻问题。

文献[8]提出了基于项目聚类的协同过滤,算法主要思想是结合项目评分与项目属性的项目相似度,再对项进行聚类。聚类可以通过一些聚类算法将项和用户聚成若干子类,再在各小类中产生推荐集。张娜等先计算项目相似度再用k划分聚类算法进行项目聚类,产生k个用户-项目子矩阵,然后对已有的项目聚类结果用k划分算法进行客户聚类,最后在目标用户所在的几个矩阵中寻找最近邻。

2.3结合基于内容推荐的协同过滤算法

文献[10]在分析了传统协同过滤在处理新项目和新用户问题上的瓶颈提出了结合基于内容推荐的协同技术。协同过滤算法过分依赖于用户评分,而对于新项目和新用户没能产生评分数据,推荐集中就不会出现,但基于内容的推荐算法对于每个用户都有用户描述,其中记录了用户感兴趣的内容。可以根据用户喜好和项目的特征信息,推荐给与目标用户特征相似的项目,这就能较好的解决这一问题。

虽然这算法可以一定程度上解决“新项目”问题,但也存在一定的局限:用户或项目特征提取能力有限,目前只能进行简单的提取,对于项目特征不能做到准确的定位,基于内容的推荐现阶段只能对文本内容提取,而对于一些影像,图像很难做到提取特征。

2.4结合基于关联规则的协同过滤算法

文献[11]提出了一种结合关联规则和协同过滤的算法,其主要思想是:先通过关联规则在商品项中找到频繁项,再将这些频繁项捆绑在一起对目标用户进行推荐,这就可以更好更多的产生推荐集了。但是目前这方面算法研究还处于初级阶段,可以从以下几方面进行进一步的研究:1)如何将web日志预处理更好的融入到协同过滤中去;2)面对数据快速更新速度,如何剔除无用的信息,保证推荐及时性和准确性;3)如何更好的将这一推荐技术应用到实践中。

2.5其他的一些改进算法

傅鹤岗[12]等在分析了传统协同过滤算法在用户数量快速增长的时代下所需要付出的代价很大,提出了基于模范用户的协同过滤算法。其主要思想是:用户的兴趣常集中在某几个特定区域,可以先对用户进行聚类,使得类内相似度高而类间相似度低,再在这基础上产生推荐集。施凤仙[13]等提出了结合项目区分用户兴趣度的协同过滤算法,其主要思想是在计算用户相似度时对于不同的项目所占的权重不同,因为用户对于很多大众流行产品评分很高但不能真正反映用户的兴趣度,

3总结与展望

随着电子商务迅速发展,用户及商品项都呈现爆炸式增长,同时用户对商品项的评分又过于稀少,导致数据过分稀疏,对于未来个性化推荐系统发展来说这是个瓶颈。本文总结了大量研究人员提出的改进算法,这些算法在一定程度上能解决数据稀疏性问题。但这一问题一直都存在,因此对该算法如何改进还需要进一步研究探讨,下一步的工作可以从以下几方面进行:

1)建立一套完善的评分激励制度。这可以从根本上解决数据稀疏性问题,完善的激励制度可以使得用户愿意客观的去给予商品项评分,通过这项制度,可以得到更多准确,可信度高的评分项,从而利于推荐系统产生推荐集;

2)与政府及企业部门共享客户资料。目前的政府和企业都有一套完善的管理系统,其中包含了很多个人信息,如果可以将这些信息和电子商务网站上的客户信息整合,那数据稀疏性问题可以得到一定程度的解决;

3)如何将新的评价替代旧的评价。用户的兴趣会随着时间变化,用户对于某商品项的评价也会改变,在推荐系统中如何快速有效的用新评价来替代旧评价有待于进一步的研究。

参考文献

[1]赵亮,胡乃静,张守志.个性化推荐算法设计[J].计算机研究与发展,2002,39(8):986-990.

[2]SarwarBm.Sparsity,scalability,anddistributioninrecommendersystems[D].minneapolis,USa:Universityofminnesota,2001.

[3]parkSt,pennockD,madanio,etal.na?vefilterbotsforobustcold-startrecommendations[a].in:proceedingsofthe12thaCmSiGKDDinternationalConferenceonKnowledgeDiscoveryandDatamining[C].newYork,USa:aCmpress,2006:699-705.

[4]刘芳先,宋顺林.改进的协同过滤推荐算法[J].计算机工程与应用,2011,47(8):72-75.

[5]张丙奇.域知识的个性化推荐算法研究[J].计算机工程,2005,31(21):7-9.

[6]刘勇.基于项目相似度计算改进的协同过滤算法[J].商场现代化,2007,520:84-85.

[7]郁雪,李敏强.一种结合有效降维和K-means聚类的协同过滤推荐模型[J].计算机应用研究,2009,26(10):718-3720.

[8]鲁培.一种改进的基于项目聚类的协同过滤推荐算法[J].科技传播,2011,1:205-206.

[9]张娜,何建民.基于项目与客户聚类的协同过滤推荐方法[J].合肥工业大学学报,2007,30(9):1160-1162.

[10]adomaviciusG,tuzhilina.towardthenextGenerationofRecommenderSystems:aSurveyoftheState-of-the-artandpossibleextensions[J].ieeetransactiononKnowledgeandDataengineering,2005,17(6):734-749.

[11]裘立波,姜元春,林文龙.基于关联规则和协同过滤的网络商品捆绑方法研究[J].计算机与现代化,2009,9:169-172.

计算机研究生推荐方向篇4

[关键词]web日志数据挖掘电子商务关联规则聚类算法

web数据挖掘是数据挖掘的一个重要分支,是随着数据库技术、人工智能技术和网络技术的发展而提出的。尤其是随着电子商务的不断运作,信息总量不断增加,更迫切需要有效的信息分析工具。

当今,电子商务正以其成本低廉、快捷、不受时空限制等优点而逐步全球流行。在这种新型的商务模式下,却遇到了网络信息量和基于web的应用的一些阻碍。一方面,没有针对性地提供信息,访问者不能快捷地获得所需;另一方面,不能快捷地在站点上寻找到感兴趣的商品,用户容易转向访问其他站点,造成客户流失,这些对站点企业来说都是致命的。

基于上述原因,商务站点“个性化”营销孕育而生。而个性化所涵盖的内容中,针对用户的推荐服务是最为重要的,因为它能够改变这种“大众化”的方式,向用户提供个性化的信息。推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程,因此可以有效保留用户,提高电子商务系统的销售;商家也可以通过推荐系统保持与客户的联系,重建客户关系。

本文将对电子商务推荐系统中的若干关键技术进行有益的探索和研究。

一、电子商务推荐算法及改进

电子商务推荐算法是整个推荐系统的核心,其推荐精度和推荐效率直接影响推荐系统的整体性能。目前典型的推荐算法有基于关联规则的推荐算法和基于用户的协同过滤推荐算法。

1.基于关联规则的推荐算法

基于关联规则的推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段。离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型,这一步比较费时,但可以离线周期进行;在线阶段根据建立的关联规则推荐模型和用户的购买行为向用户提供实时的推荐服务。

2.协同过滤推荐算法

协同过滤推荐是目前最成功的电子商务推荐技术,被应用到很多领域中。协同过滤根据用户的行为(如用户注册信息、用户评分数据、用户购买行为等)建立用户的行为模型,然后利用建立的行为模型向用户推荐有价值的商品。用户数据的收集在协同过滤推荐算法中占有重要地位,如何有效收集高质量的用户数据直接关系到推荐算法的推荐效果。

3.基于聚类的协同过滤算法概述

随着电子商务系统的进一步扩大,协同过滤推荐算法的实时性要求遇到了巨大挑战。在一个用户和商品均数以万计的系统中,同时为数以万计的用户提供实时的推荐服务越来越困难。

为了解决推荐系统中存在的上述问题,进行实时推荐,那么就需要提高推荐的速度。因此,提出了基于聚类的协同过滤推荐算法。将整个用户空间根据用户的购买习惯和评分特点划分为若干个不同的聚类,从而使得聚类内部用户对项的评分尽可能相似,而不同聚类间用户对商品的评分尽可能不同。根据每个聚类中用户对商品的评分信息生成一个虚拟用户,虚拟用户代表了该聚类中用户对商品的典型评分,将所有虚拟用户对商品的评分作为新的搜索空间,查询当前用户在虚拟用户空间中的最近邻居,产生对应的推荐结果。

4.改进的k-means聚类算法

(1)k-means聚类算法。k-means聚类算法是最简单同时也是非常有效的聚类算法。采用k-means聚类算法对整个用户空间进行聚类的主要步骤如下:

①随机选择k个用户作为初始的簇中心,将k个用户对项的评分数据作为初始的聚类中心。

②对剩余的用户集合,计算每个用户与k个聚类中心的相似性,将每个用户分配到相似性最高的聚类中。

③对新生成的聚类,计算聚类中所有用户对项的平均评分,生成新的聚类中心。

④重复以上2到3步,直到聚类不再发生改变为止。

(2)改进的k-means聚类算法。在k-means算法中,k个中心的选取一般为随机选取或依赖于领域知识。为了更好地选取k个中心以提高聚类的质量,需要对k-means算法进行改进。算法2-1给出了改进后的算法描述。

算法2-1改进k-means算法。定义:(推荐池t)设站点共有m个页面,共有n次用户的访问,由于采用协作推荐方法,那么推荐池t就是内存中的一个n×(m+l)的矩阵。其中每一行代表一个用户访问的页面集;在前m列中,每一列表示用户对该页面的访问时间长度;每一个矩阵项表示个用户在一个页面上的访问时间,即该用户对该页面的访问兴趣度大小。第m+l列表征该行被加入到推荐池中的时间,这是为了对该推荐池保持一个按时间新旧程度运行的替换策略。

输入:初始簇K,推荐池t

输出:推荐池的中心集合CenterSet

①k=[K/2];//起始时取「K/2值作为k-means算法的初始k值。

②将评分项为0的各项以某一均值(或者设定的值)θ代替;//避免出现大规模稀疏矩阵影响推荐质量。

③initialize(t,CenterSet,k);//随机选取k个初始的中心。

④wHiLek

⑤CenterSet=k-means(t,k,CenterSet);//进行聚类操作得到k个中心//找到一个新中心

⑥max=0;newcenter=null

⑦FoReachc∈tDoBeGin

⑧d=0;

⑨FoReachc∈CenterSetDoBeGin

⑩d=d+distance(t,t,c);

enD

iFd>maxtHenBeGin

max=d;

newcenter=t;

enD

enD

CenterSet=CenterSet∪{newcenter}

k=k+1;

enD

RetURnCenterSet;

5.对改进的k-means算法进行分析

在每一遍k-means算法执行后,选取一个距离各中心距离和最大的元素作为新的中心。该算法的改进之处有三点:

(1)改变了传统的k-means算法要求用户必须事先给出k(要生成的聚类数目)值,以及对于设定的不同k值导致不同聚类结果的缺点。

(2)避免了某些页面因为没有被访问得到评分为0而形成的大规模稀疏矩阵问题。

(3)改进的k-means算法由于在每一次算法执行后是选取一个距离各中心距离和最大的元素作为新的中心,这个元素来自原来的样本数据库,原来的距离矩阵数据仍然可以重用,因此不需要重新计算每一个对象与新的平均值点间的距离。

该算法的缺点是:只有当聚类数目远小于项数目时,计算目标项与聚类中心相似性的时间代价相对于最近邻查询才可以忽略不计,当聚类数目很大的时候,计算目标项与聚类中心相似性的代价并不能忽略不计。

二、电子商务推荐系统的实现

我们将系统分为三个模块:数据预处理模块、模式挖掘模块和模式分析及应用模块。

1.实现模型

由此,基于web日志挖掘的电子商务推荐系统的结构分成在线和离线两个部分,三个模块。如图1所示:

图1电子商务推荐系统结构图

2.离线模块

一般情况下,推荐系统的离线部分主要针对的是注册用户,根据用户提供的关键信息对推荐集合进行净化,从而在推荐页面集合上体现精确的用户感兴趣的信息,如笔者参与设计的某搜饭网,对于注册用户“馋嘴鸭”,在注册过程中,提交的用户所在地关键字是“市南区”,那么一旦该用户登录系统,则直接将跟市南区有关的推荐页面展示在用户窗口,如图2所示:

图2地区来源是市南区的注册用户推荐页面

3.在线模块

在线模式下又分成两种情况,一是注册用户登录,二是随机非注册用户。对于注册用户来讲,可以任意变更兴趣项,而推荐系统会根据用户的选择,形成推荐集合并展示精确的推荐页面,如果变更的兴趣项不包含注册用户的关键信息,则推荐集合在原推荐集中产生,这样用户得到的推荐页面更加精确。

对于随机用户,推荐页面与用户兴趣关系密切,同时其精确程度很大程度上依赖用户的兴趣项的选取。即用户的兴趣项约束越多则推荐页面越精确,这种情况是以牺牲用户时间为代价的。经过用户的一系列选择后,推荐系统最后生成推荐页面,如某随机用户对菜品类别(咖啡)、地区(市南)进行选择后生成的推荐页面。如图3所示。

图3随机用户选择后的推荐页面

三、结论

目前web数据挖掘己逐步成为网络研究、数据挖掘、知识发现、软件等领域的热点问题。研究日志挖掘,对于优化web站点、电子商务、远程教育、信息检索等领域,都有着十分重要的意义。然而,如何将这些技术深入、完善,并尽快运用到internet各种应用中,是摆在我们面前的新课题。

参考文献:

[1]邹显春等:电子商务与web数据挖掘[J].计算机应用,2000.4

[2]p.Buono,m.F.Costabile,S.Guida,a.piccinno,G.tesoro,integratingUserDataandCollaborativeFilterinawebRecommendationSystem,Um2001-proc.thirdworkshoponadaptiveHypertextHypermediaSonthofen,Germany,July2001,129-140

[3]FayyadU,piatetsky-ShapiroG,andSmythp.Knowledgediscoveryanddatamining:towardsaunifyingframework

[4]GrdonS.Linoff,michaelJ.a.Berry著,沈均毅等译.web数据挖掘:将客户数据转化为客户价值[m].电子工业出版社,2004.3

计算机研究生推荐方向篇5

(1.南京理工大学,江苏南京210094;2.江苏省社会安全图像与视频理解重点实验室,江苏南京210094)

摘要:推荐系统是一种解决信息过载的新型技术,为了解决推荐系统中新用户带来的冷启动问题,提出一种基于主动学习的推荐系统。主动学习方法能有效减少需要标记的样本数量,快速建立模型,在此选择将主动学习方法和BaselineSVD推荐算法结合起来,通过记录模型训练得到的预估评价的改变程度,认为改变最大的样例即是最具有信息量的样例,供新用户标记,并重新训练模型。通过与其他选择策略进行实验比较,证实了该方法确实有效解决了新用户带来的冷启动问题。

关键词:推荐系统;主动学习;BaselineSVD;样例选择

中图分类号:tn915.03-34文献标识码:a文章编号:1004-373X(2015)12-0008-04

收稿日期:2014-12-16

基金项目:江苏省社会安全图像与视频理解重点实验室(南京理工大学)开放基金项目(20920130122006);高等学校学科创新引智计划资助(B13022)

0引言

随着信息技术和互联网的高速发展,各种互联网应用充斥着每个人的生活,得益于互联网的开放性,便利性和分布性,互联网上的信息量急剧增加。为了解决信息过载问题,推荐系统成为了继分类目录和搜索引擎之后,大数据时代的新宠。协同过滤作为一种主流的推荐系统技术[1],在学术界和应用上都广受好评,它的主要思想是通过用户之间的联系来分享物品。协同过滤算法分成两种[2]:一种是基于记忆的协同过滤算法(memory-based),包括itemCF算法和UserCF算法,通过计算用户或物品之间的相似度来做推荐;另一种是基于模型的协同过滤(model-based),基于模型的推荐算法往往结合了数据挖掘、人工智能、机器学习等诸多技术,常见的有基于聚类的推荐、基于矩阵分解的算法、Slopeone[3]等,其中基于矩阵分解的算法有:SVD,BaselineSVD[4],SVD++[5]等。在netflixprize推荐大赛之后,基于矩阵的推荐算法迅速崛起。推荐系统的发展受到了诸多因素的影响,其中一种便是新用户问题。推荐系统算法非常依赖历史数据,在用户新注册互联网应用之后,系统由于没有该用户的相关数据,而无法为新用户做出准确的推荐,这会大大影响互联用应用对用户的黏着性。为了解决新用户问题,常见的方案有:

(1)非个性化推荐,随机推荐或者推荐热门,这种方法不够个性化,系统必须累积一定数量的数据才能启动推荐系统;

(2)根据用户注册信息做出推荐,用户的注册信息往往是有限的,这样的推荐偏向粗粒度;

(3)主动询问,该方法通过与用户交流,主动获取建立模型需要的相关知识,快速建立准确模型。

推荐系统中,在将推荐产品呈现给用户时,一方面期望得到用户的满意度,另一方面期望能从用户的操作中学习到用户的偏好,这正是主动学习所致力的,因此将主动学习结合推荐系统是不谋而合的[6]。国外研究人员目前常用的算法是将贝叶斯理论作为样本选择策略,am(aspectmodel)算法为基准学习器[7]。Jin等针对模型本身不确定性的问题,提出了改进,使得用户参数向着准确的方向增长[8]。RasoulKarimi提出一种基于矩阵分解的主动学习算法,选出预估评分最低的样本供用户选择[9]。

1相关算法介绍

1.1SVD算法

SVD(SingularValueDecomposition)[4]是一种基于潜语义的分析模型,它将用户和物品映射到低维的隐类别上,根据用户对物品已有的评分情况,分析用户和各个潜在类别,以及物品和各个潜在类别的关联程度,最后再反过来求解评分矩阵。设用户集U={u1,u2,…,un},电影集i={i1,i2,…,im},用R矩阵表示用户U对物品i的评分矩阵,如表1所示,矩阵存在很多空洞,这种空洞的百分比很大,往往可以达到99%。

式中:矩阵p表示用户对于潜在类别的相关程度;矩阵Q表示物品对于潜在类别的相关程度;K的取值需要根据不同的数据进行选择。

1.2BaselineSVD算法

考虑到不同用户可能有不同的打分偏向,某些用户习惯打高分,某些用户习惯打低分,并且不同的电影也有不同的评分趋势,为了解决这个问题,将这种偏差列入公式:

r-u,i=μ+bi+bu+ptuqi(3)

式中:μ表示所有电影的平均分;bi表示物品偏差;bu表示用户偏差。

为求解公式中所需要的p,Q等未知变量,可以通过最小损失函数来得到答案,并且为防止过拟合问题,添加了正则化式,式(4)采用平方误差和作为损失函数,其中的S表示训练集:

可以通过随机梯度下降法最优化解,具体参数更新公式如式(5)所示:

BaselineSVD算法在精确度上有很好的表现,这也是本文使用该算法作为基准学习器的原因。但是当新用户注册时,由于其历史数据过少,BaselineSVD算法对新用户的推荐仍是很不精确的,需要一个慢慢启动的过程。

2基于主动学习的BaselineSVD算法

为解决新用户问题,本文选择将主动学习策略和推荐算法结合起来的方法,以加快冷启动速度。主动学习根据样本选择策略,从提问池中选择一个样本供新用户标记,并不断修正模型,直到模型稳定为止,训练模型的过程如图1所示,这是一个不断迭代的过程。主动学习的核心是样本选择策略,目前常用的样本选择策略有:基于不确定性缩减的算法,基于误差缩减的算法和基于版本空间缩减的算法。将主动学习策略与其他应用做结合的研究很多,例如基于主动学习的字符识别[10]、文本分类等。

由于不同的学习算法需要不同的主动学习策略,基于am算法的主动选择策略并不适用于BaselineSVD算法,并且他们的模型太过复杂,本文选择BaselineSVD作为基准学习器,提出了一种基于评分改变程度作为样例选择的策略。在每次提问后,都会重新训练,同时给出新的预估评分,预估评分波动较大的物品认为是最不能确定,也是最具信息量的。图2中,(a)的预估评分在不同轮数之间的评分差变化很大,而(b)的预估评分相对于要稳定很多,相对于后者,不能确定(a)的评分的可能性更大,得到该样本的标记可以让模型更快趋于稳定,使用式(6)来衡量这种改变程度的大小:

式中:cnt表示模型训练的总次数;i′表示为标注样本的集合;r-ju,i´表示第j次模型;用户u对i′的预估评分,在所有未评分的物品,最终选出该值最大的物品供用户标记,该式的意义是连续两次模型计算出来的预估评分差的平均值。具体算法流程如图3所示。

3实验分析

实验使用经典的movielens作为数据集,采用离线模拟的方式。为了更好地模拟在线用户的实际情况,将movielens中的用户分成两部分,选择一部分用户和其所评价过的电影数据作为初始的训练集,认为这些用户已经不是新用户。剩下来的用户作为新用户,并将这一部分用户评价电影的数据再拆分成两个部分,每个用户随机预留20个电影评分作为最终的测试集,其他部分的电影评分作为提问池。本文假设用户对每个电影都具有打分的能力,系统每次从提问池中选择电影样本,供用户回答,再将这些被标注好的样本放入训练集后,重新训练模型。初始化时,从提问池中随机抽取该新用户的3个样本放入训练集中,具体的训练集和测试集的分布如表2所示。

经过研究测试,BaselineSVD算法在movielens数据集中,选择隐分类数为200时效果较好,其中,学习速率α选择0.02,正则系数λ选择0.05。为了反映本文提出的算法性能,选择以下两种策略作为比较算法:

(1)随机选择。每次从提问池中随机选择一部用户需要标记的电影。

(2)选择热门。每次从提问池中选择热门的电影,热门产品的定义为,训练集中被看的次数最多的电影。为评价本文提出的算法,使用RmSe[11]作为算法的评价指标,本文将最大的迭代次数选为8,8次迭代过后,模型对新用户的推荐基本趋向平稳。为了更好地反映结果,对每个实验都进行重复实验,最后结果取平均值,有:

由图4可以得出以下结论,选择热门产品的方案最差,虽然流行度高的电影普及度最广,但是其对于个性化的推荐模型建立并不能做出很大的贡献,其RmSe下降速度最慢。

随机选择策略接近于被动学习中,被动累积数据的情况,本文提出的方法在实验初期,RmSe的数值下降速度最快,明显加快了冷启动速度,随着提问次数增加,RmSe和随机选择方法效果接近。本文提出的算法在每次提问时,仅需维护一个记录累计评分改变的矩阵,为每一个新用户选择评分改变最大的物品,算法复杂度较小,也易于理解。

4结语

本文提出了一种基于主动学习的推荐算法,以解决推荐系统中新用户问题。该方法将预估评分的改变程度作为样本选择策略,认为预估评分改变较大的样例是模型最不能确定的,所含信息量较大。实验证明,该方法确实能有效减缓用户的冷启动。但是本文中的实验是基于用户总能回答任何问题的假设前提,这在现实中是不成立的,因此,将用户标记样本的能力结合样例选择策略将是今后的研究重点。

作者简介:季芸(1989—),女,浙江宁波人,硕士研究生。主要研究方向为机器学习、推荐系统。

胡雪蕾(1977—),女,江苏南京人,副教授。主要研究方向为机器学习、智能机器人、图像处理与计算机视觉。

参考文献

[1]项亮.推荐系统实践[m].北京:人民邮电出版社,2012.

[2]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.

[3]LemireD,maclachlana.Slopeonepredictorsforonlinerating-basedcollaborativefiltering[C]//proceedingsofSiamDatamining.newportBeach,California:SDm,2005,5:1-5.

[4]YeHUDaKoren.Factorintheneighbors:scalableandaccu-ratecollaborativefiltering[J].aCmtransactionsonKnowledgeDiscoveryfromData,2010,4(1):1-10.

[5]刘剑波,杨健.基于SVD++与行为分析的社交推荐[J].计算机应用,2013,33(1):82-86.

[6]RUBenSneil,KapLanDain,SUGiYamamasashi.activelearninginrecommendersystems[m]//anon.RecommenderSystemsHandbook.US:Springer,2011:736-767.

[7]KaRimiRasoul,FReUDentHaLeRChristoph,nanopoU-LoSalexandros,etal.activelearningforaspectmodelinrecommendersystems[C]//proceedingsof2011ieeeSympo-siumonComputationalintelligenceandDatamining(CiDm).[S.l.]:ieee,2011:162-167.

[8]JinR,SiL.abayesianapproachtowardactivelearningforcollaborativefiltering[C]//proceedingsofthe20thConferenceonUncertaintyinartificialintelligence.[S.l.]:aUaipress,2004:278-285.

[9]KaRimiRasoul,FReUDentHaLeRChristoph,nanopoU-LoSalexandros,etal.non-myopicactivelearningforrecom-mendersystemsbasedonmatrixfactorization[C]//proceedingsof2011ieeeinternationalConferenceoninformationReuseandintegration.[S.l.]:ieee,2011:299-303.

计算机研究生推荐方向篇6

[关键词]电子商务推荐系统协同过滤

一、引言

随着互联网的广泛普及,电子商务对传统的商务交易产生了革命性的变化,产生从以商品为中心到以用户为中心的商业模式的转变。新的商业环境在为企业提供新的商机的同时,也对企业提出了新的挑战。围绕用户进行服务,为用户提供所需要的商品,所以对每个用户提供个性化的服务成为必要。电子商务推荐系统成为解决问题的重要途径。而协同过滤推荐是目前研究最多、应用最广的电子商务推荐技术。

二、电子商务推荐系统

电子商务推荐系统定义为:利用电子商务网站向用户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。它是一个基于用户网上购物的以商品为推荐对象的个性化推荐系统,为用户推荐符合兴趣爱好的商品。分析用户的消费偏向,向每个用户具有针对性地推荐的产品,帮助用户从庞大的商品目录中挑选真正适合自己需要的商品。电子商务推荐系统在帮助了用户的同时也提高了用户对商务活动的满意度,换来对电子商务站点的进一步支持。

三、协同过滤推荐技术

1.基于用户的协同过滤,基于用户的协同过滤推荐技术是推荐系统中应用最为广泛的方法之一,它是基于邻居用户的兴趣爱好预测目标用户的兴趣偏好。算法先使用统计技术寻找与目标用户有相同喜好的邻居,然后根据目标用户的邻居的偏好产生向目标用户的推荐。它能够通过用户间的相互协助、根据用户对项目的评价的相似性对用户进行分类,其次,在基于用户的系统过滤系统中,所有用户都能从邻居用户的反馈评价中得益,当然,基于用户的协同过滤系统容易挖掘出目标用户潜在的新兴趣。

2.基于项目的协同过滤,基于项目的协同过滤通过先计算已评价项目和待预测项目的相似度,以相似度作为权重,加权各已评价项目的评价分,得到预测项目的预测值,基于项目的协同过滤推荐根据用户对相似项目的评分预测该用户对目标项目的评分,它基于这样一个假设:如果大部分用户对一些项目的评分比较相似,则当前用户对这些项目的评分也比较相似。

3.基于混合推荐的协同过滤,综合考虑了用户和项目这两个属性。一种是先根据项目来预测,然后用基于用户的协同过虑产生推荐;另外一种是先根据用户来预测,然后用基于项目的协同过虑产生推荐;还是一种就是分别根据基于用户和基于项目的协同过虑来加权平均产生推荐。

4.基于聚类的协同过滤,聚类技术是根据用户的兴趣类似性来进行聚类,聚类产生之后,根据聚类中其他用户对项目的评价预测目标用户对该项目的评价。有学者提出通过对服务器日志进行事务聚类和关联规则超图分割聚类获取用户的共同浏览特征,然后扫描所有的数据集合产生个性化的推荐。也有学者提出对项目进行聚类,然后在对应的聚类中搜索目标用户的最近邻居,由于每个聚类中的用户数量并不是随着项目数量的减少而线性减少,所以这种方法在用户对多个聚类中的商品均有评分的情况下效果并不理想。

5.基于关联规则的协同过滤,关联规则技术在零售业得到了很大的发展。关联规则挖掘可以发现不同商品在销售过程中的相关性。系统根据生成的关联规则模型和用户当前的购买行为向用户产生推荐。关联规则模型的生成可以离线进行,因此可以保证系统的实时性要求。

四、待解决的问题

1矩阵稀疏性。电子商务网站通常拥有大量商品,而每个用户购买或作评价的只是其中很小的一部分通常不到1%,例如亚马逊网站系统,数据的稀疏会导致算法准确率降低。在一般的协同过滤系统中,如果两个用户没有对相同的商品进行打分,即使这两个用户的兴趣爱好都相同,系统也无法得出他们之间的相似度,算法甚至找不到任何商品可作推荐。

2.冷启动问题。冷启动问题有新商品问题和新用户问题两类。新商品问题是指一个新商品刚加入的时候,没有人或很少人评价,则这个商品很难被推荐出去,这就需要推荐系统引入一些新机制来激励用户多作评价。新用户问题是指推荐系统中对用户的分类是依据目标用户与其他用户的比较,这种比较主要基于不断累积的用户评价。如果一个新用户从未对系统中的项目进行评价,则系统无法获知他的兴趣点,也就无法对他进行推荐。

3.可扩展性。随着用户和项目数量急剧增加,在整个用户空间上搜索目标用户的最近邻居比较耗时,难以满足推荐系统的实时性要求。主要由于基于用户或项目的协同过滤算法需要扫描整个数据库来计算相似度,因此随着数据库中记录的增加,其计算复杂度呈指数级别增长,导致推荐系统性能急剧下降。一种可能的方法就是用聚类分两阶段来解决问题。离线阶段对用户或项目进行分类,在线阶段就可以直接到规模小很多的聚类中心找到最近邻居并产生推荐。

4.隐私保持问题。协同过滤中隐私保持问题近年来也引起了越来越多学者的研究兴趣。数据挖掘中隐私保持是近年来学术界的一个研究热点,已在很多协同过滤中取得了成果。有基于加密的技术和随机扰乱技术解决方案。也有用对等网络结构的协同过滤推荐隐私保持问题的技术方案。

五、总结

电子商务推荐系统,一方面有助于电子商务网站内容和结构自适应性的实现,另一方面在帮助用户快速定位感兴趣的商品的同时也为企业实现了增值。而协同过滤与其他推荐方法比较有许多不可替代的优化,本文对协同过滤推荐技术进行了介绍,并对存在的问题进行了概述。目前,国内的电子商务网站在这方面的实践处在快速发展的阶段,因此还需要继续研究出更智能、更优化的协同过滤推荐技术。

参考文献:

计算机研究生推荐方向篇7

关键词:

中图分类号:tp391.3文献标识码:B文章编号:2095-2163(2011)01-0051-05

0引言

词语相似度计算[1-2]研究的是采用怎样的方法来计算或比较两个词语的相似性。词语相似度计算在智能检索、文本聚类、文本分类、自动应答、机器翻译等领域都有广泛的应用。在不同的应用中,词语相似度有不同的用途,例如,在基于实例的机器翻译中,词语相似度能够表示文本中两个词语的可替换程度;在信息检索中,利用词语相似度能够提升信息检索的准确率和召回率;在问答系统中,答案和问句的符合程度可以通过计算两者含有词语之间的相似度来衡量。本文将研究词语相似度计算在英文辅助写作系统中的应用。

1英文辅助写作系统

英文辅助写作系统是一个英汉双语的例句检索系统,用户可以使用中英文双语检索自然语言处理领域英文论文中的地道例句,同时获得例句所属论文的相关信息(作者信息、论文题目、论文的来源),为写作英文学术论文的用户提供帮助。用户可以输入想要表达的中英文词组和短句,系统会为用户查找与输入相似的自然语言处理领域的文章中的地道的英文例句,用户可以通过观察和学习检索到的例句,组合出地道的、满足需要的英文表达。该英文辅助写作系统主要功能如下:

(1)英文短语搭配推荐生成

主要针对两个词的query输入,给出语义相似的搭配推荐。用户可以比较推荐的搭配和输入,选择出更地道的英文表达。系统短语搭配参考结果页面如图1所示。

(2)翻译推荐生成

建立中译英的统计机器翻译系统,其中语言模型的语料选用的是aCLanthology抽取的共1716418句的语料,可以体现出更地道的英文表达。翻译模型的语料采用的是CnKi的摘要,这是个大规模的双语平行语料。对用户的每个中文查询词,后台的在线机器翻译系统进行翻译,返回前十的nbest的结果,以供用户选择。同时用户输入的中文query后返回的英文检索结果是按照评分最高的翻译进行检索获得的结果。系统翻译候选结果页面如图2所示。

(3)同义词推荐和单个输入的搭配推荐

①同义词推荐:利用wordnet生成单个词query的同义词推荐,包括其可能的四种词性的同义词推荐,分别为名词的、动词的、形容词的和副词的。

②单个输入的短语搭配推荐

与(1)的短语搭配参考类似,只是需要其短语搭配生成的步骤。这里短语搭配推荐可能有很多,不便于在页面全部显示,所以按照其在检索库中的精确匹配次数进行排序,只取前五个搭配在页面显示。同义词和短语搭配推荐的结果均按照其在检索库中的精确匹配次数排序后以降序的顺序显示。系统单个输入的同义词推荐和常用搭配推荐结果页面如图3所示。

(4)例句检索库:检索的语料来源于aCLanthology[3]从1979年至今的所有论文中有相关信息(题目、作者等)的文章的句子。文章总数8173篇,总句子规模有1716418句。语料库特点是句子都是地道的英文表达。

用户在实际使用该系统时,输入的检索词往往不能准确地检索到所需的例句,因为用户初始是不知道地道的英文表达的,这就导致用户可能需要进行多次检索,才能检索到最理想的例句,也可能一直检索不到,这将影响到用户使用的满意度。因此,需要给用户提供查询的相关词提示功能,帮助用户更快更好地使用该系统。该检索系统的相关词提示功能有多种,包括同义词推荐,两个词相似搭配推荐、单个词常用搭配推荐等等。笔者在本文中主要研究在该系统背景下的同义词推荐生成方法。

在该检索系统的实际运行过程中,发现用户在使用同义词推荐功能时,主要关注同义词推荐的第一个词是否是在自然语言处理领域中与查询词最相似的词。考虑到这一用户需求,首先利用语义词典wordnet生成通用领域的同义词候选集,然后进行特定语境环境下的词语相似度计算,对同义词候选集进行排序,为用户提供高质量的同义词推荐功能。

2相关研究

2.1wordnet

英文wordnet[4]是普林斯顿大学认知科学实验室开发的一部在线词典数据库系统,是基于英文的词汇语义网络系统。wordnet本质上是一个词汇概念网络,描述的是概念间的各种语义关系,wordnet中也规定了动词、形容词和副词的语义知识表示规范,其核心都是synset(同义词集合)以及概念之间的各种关系。

2.2词语相似度研究现状

国内外对词语语义相似度的计算方法大体可分为两类:基于统计的词语语义相似度计算方法[5-6]和基于语义词典的词语相似度计算方法[7-9]。

基于统计的词语语义相似度计算方法是经验主义方法,是把词语相似度的研究建立在可观察的语言事实上,而不仅仅依赖于语言学家的直觉。这种计算方法是建立在两个词语语义相似当且仅当这两个词语语义处于相似的上下文环境中这一假设的基础上,通过利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。

基于语义词典的词语相似度计算方法是基于语言学的理性主义方法,是利用语义词典,依据概念之间的上下位关系和同义关系,通过计算两个概念在树状概念层次体系中的距离来得到词语间的相似度。

3同义词推荐的生成方法

首先通过语义词典wordnet生成用户查询词在通用环境下的同义词候选集,然后利用基于上下文向量的特定语境下的相似度计算方法,计算同义词候选集中每个词与目标词在自然语言处理领域语境下的相似度值,最后将同义词候选集按照相似度值以降序关系排列显示给用户。

3.1同义词候选集生成

wordnet是一个英语词汇及其词法关系的数据库,同时也是一个英语词典。由于wordnet包含了语义信息,所以有别于通常意义上的字典。wordnet根据词条的意义将其分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。wordnet为每一个synset提供了简短、概要的定义,并记录不同synset之间的语义关系。wordnet的开发有两个目的:其既是一个字典,又是一个辞典,但比单纯的辞典或字典都更加易于使用,而且支持自动的文本分析以及人工智能应用。pywordnet通过一些专门的工具方法将wordnet数据公开为一组python数据结构。pywordnet被组织成四个词典,分别对应wordnet2.0的四个部分――名词、动词、形容词和副词。词汇的单词形式是主键,每个记录都包括含义(sense)、同义词组(synonymset)、注释(glosse)和指针(pointer)。

本文通过pywordnet提供的接口访问wordnet数据库,从而获得用户查询词的同义词候选集列表。此时获得的同义词候选集列表是通用环境下的同义词,而且被认为与查询词的相似度都是相同的。但在特定语境环境下,这些同义词与查询词的相似度会出现不同,考虑到在向用户推荐时,需要把与目标词相似度最高的词排在最前以供用户优先选择,因而需要计算这个同义词集在特定语境环境下与目标词的相似程度。

3.2特定语境环境下的相似度计算方法

3.2.1上下文词语同现向量(CwCV)

特定语境环境下语义相似度计算方法建立在两个词语语义相似当且仅当这两个词语语义处于相似的上下文环境中这一假设的基础上。为了计算两个词语之间的语义相似度,需要从语料中统计词语的上下文信息。在本文中,为每一个需要计算语义相似度的词语构造上下文词语同现向量(CwCV)。

CwCV的定义:一个词语的上下文环境中含有丰富的有关该词的语义信息,在不同的上下文中一个词语往往具有不同的语义,因而可以用在上下文环境中与目标词以某种关系同现的、所有词语构成的向量来表示目标词语,这个向量就是CwCV。

3.2.2词上下文向量的生成

(1)通过简单的浅层句法分析,将训练集中所有文本的每一个句子都分解为若干个句法组,删除不太重要的句法组后,标记其中的核心词和修饰词。

(2)以一个关键词为中心,以句子为共现单位,通过对训练集内该词语的上下文词语进行统计,得出该词语的词上下文向量。用同样的方法得到其它关键词的词上下文向量。

利用上述方法生成的词上下文向量矩阵为:tCV[i][j]=?邀Cij?妖,其中,i和j的取值范围为[1..n],Cij为小于1的实数,表示第i个词语ti与第j个词语tj之间的上下文关系;第i行的值集合(Ci1,Ci2,…,Cin)即为第i个词语ti的词上下文向量,表示训练集中的n-1个词语与ti之间的上下文关系,可以看作是ti在训练集中的语义描述。

词上下文向量生成算法的主要步骤如下:

步骤1:用浅层句法分析工具将训练集中所有文本的所有句子都分解为句法组,只保留名词句法组和动词句法组,每个保留下来的句法组内进一步删除名词、动词、形容词之外的其它类型的词语,并区分出其中的核心词和若干个修饰词。

步骤2:设置并初始化词上下文向量矩阵tCV[n][n]。

步骤3:生成矩阵,具体算法为:

for(i=0;i<训练集中的句子总数;i++)

for(j=0;j<句子中的词语个数;j++)

?邀

wij=第i个句子中的第j个词语;wik=第i个句子中的第k个词语;

if(wij和wik位于同一组且具有修饰关系或位于不同的句法组但都是核心词)

R=1;elseR=α;

noij=wij在向量空间特征集中的序号;noik=wik在向量空间特征集中的序号;

tCV[noij][noik]=tCV[noij][noik]+R;

?妖

步骤4:对tCV中每一个不为空的向量都进行规格化。

3.2.3基于词上下文向量的词语相似度计算

在上述词上下文向量矩阵的基础上计算任意两个词语之间的相似度,具体方法是:给定两个词语,从词上下文向量矩阵中分别提取各自对应的词上下文向量,直接计算这两个向量之间的余弦系数并将其作为词语之间的相似度值,计算结果保存到相似度矩阵中。词语相似度矩阵Sim的计算公式如下:

其中,Sim为下三角矩阵,i≥j,tCV[i]、tCV[j]分别为词语ti和tj的词上下文向量,Sim[i][j]为词语ti和tj之间的相似度,tCV[i][k]、tCV[j][k]分别为词语ti和tj的词上下文向量第k维的权值。

4系统相关实验

由于词语相似度是一个主观性很强的概念,现在还没有一个合适的词语相似度计算测试集,所以在本课题中的测试集来源于aCLanthology随机选取的100个单词。文中通过人工观察的方法对这100个单词的同义词集相对于查询词进行排序,将该排序结果设定为参考排序,然后与系统排序进行比较。由于人工观察的方法主观性太强,同时用户在使用时主要关注与查询词最相似的词是否排在第一位,所以设定当人工观察排序结果中最相似词排在系统排序中的第一位且系统排序与人工排序最多有一个顺序不一致时,认为系统排序结果基本正确,并记录这100个单词的人工判定的最相似词在系统排序结果中的位置。

这里设定的baseline方法是只使用wordnet产生的同义词获选集的方法。

文中采用以下指标对算法进行评价:

(1)准确率(precision)的评测公式如下:

其中,n■表示的是测试的单词总数,当人工观察的最相似词排在系统排序中的第一位且系统排序与人工排序最多有一个顺序不一致,此时认为系统排序结果正确。ncorrect为系统排序结果判定为正确的个数。

(2)排序倒数(ReciprocalRanking,RR)是算法返回结果中正确结果出现位置的倒数,平均排序倒数是多次计算的RR的结果的平均值,利用如下公式:

其中,n表示测试单词总数,ni表示对于第i个查询单词的人工判定的最相似词在系统排序结果中位置ni。

(3)查询输入在例句检索系统中精确匹配次数可以直接反映该输入在自然语言处理中常见程度。例如,单词“show”在该例句检索系统中精确匹配的次数是14539,而单词“give”在该例句检索系统中精确匹配的次数是6625。第一个词明显比第二个词在自然语言处理领域中更常见。因此可以自动地通过精确匹配次数来评价同义词候选集中的每个词的常见程度。由于用户主要关注同义词推荐的第一词,所以分别记录测试集中每个词的同义词推荐在使用本文方法的排序和使用baseline方法的排序中第一个词的精确匹配次数a和B,然后两两进行比较:当a>B时,本文方法的个数增加1;当B>a时,baseline方法的个数增加1;当a=B时,本文方法和baseline方法个数不变。最后计算这两种方法的获胜比例。暂称该方法为C评价方法。实验结果如表1所示。

通过表1的准确率可以看出,本文的方法相比于baseline方法可以很好地选择出查询词的最相似词。通过mRR值可以看出,本文的方法相比于baseline方法可以对相似词语与查询词的相似程度给出一个合理的排序,即可以给检索系统提供一个准确的待扩展词的相似度排序。通过C评价方法,发现在100个测试词中,本文方法的获胜比例为44%,而baseline的方法的获胜比例只有16%,这说明本文方法产生的同义词推荐中与目标词最相似词的常见程度远大于baseline的方法。

在aCLanthology语境下的相似度排序举例说明,对查询词cite的动词形态在wordnet的相似度和本文相似度如表2所示。

单词cite的通用环境下的同义词为refer、name、mentio-n、advert,在wordnet的相似度计算下,其相似度均为1.0,不能区分出与目标词cite的最相似词和获得相似程度的排序。而本文相似度在这里得到了较好的效果,单词refer在该语境下是与单词cite最相似的词,大量观察下这符合aCLanthology使用情况。同时观察出单词advert在aCLanthology没有出现,这说明在通用领域下的同义词可能在特定语境环境下与目标词完全不相似,两者不可替换。

5结束语

词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有着重要的应用价值。本文将词语相似度计算的知识应用到英文辅助写作系统中,结合了语义词典wordnet和基于上下文的特定语境环境下的相似度计算的方法生成有序的同义词推荐。本文的方法在准确率、mRR以及本文设定的C评价这三个指标上远优于只使用wordnet的方法,同时本文的方法在准确率的评价中达到73%,基本满足用户的需求。

参考文献:

[1]tURneYpD.SimilarityofSemanticRelations[J].Computation-alLinguisticsJournal,2006,32(3):379-416.

[2]秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].信息系统,2007,30(1):105-108.

[3]http://aclweb.org/anthology-new/.

[4]普林斯顿大学认知科学实验室.wordnet[eB/oL].http://wordnet.princeton.edu/.

[5]BRownp,pietRaSD,pietRaVD,etal.wordsensedis-ambiguationusingstatisticalmethods[C]//proceedingsofthe29thmeetingoftheassociationforComputationalLinguistics(aCL-91),Berkley,C.a.,1991:264-270.

[6]DaGani,LeeL.Similarity-basedmodelsofwordcooccurrenceprobabilities[J].machineLearning.SpecialissueonmachineL-earningandnaturalLanguage,1999.

[7]刘群,李素建.基于《知网》的词语语义相似度计算[J].Comput-ationalLinguisticsandChineseLanguageprocessing,2002,7(2):59-76.

计算机研究生推荐方向篇8

[关键词]电子商务协同过滤推荐系统推荐技术

当前,电子商务系统迅猛发展,随之而来地出现了电子商务系统中的信息“超载”现象。海量的物品信息无疑增加了用户购买所需物品的难度,使得用户很难迅速准确地找到自己真正中意的商品。为此,许多电子商务网站引入了推荐系统,以提高用户的点击率,变网站的浏览者为购买者,提高用户购买成功率和交叉销售能力,进而提升网站的美誉度和用户对网站的忠诚度。所谓电子商务推荐系统是在了解和学习用户的需求与喜好的基础上为用户提供商品信息和建议,模拟商家向用户推荐其可能感兴趣的商品,帮助用户完成购买过程。提供个性化服务已经成为进一步提高网络内容服务质量急需解决的重要课题之一,也是未来网络内容服务的一个发展方向。目前,几乎所有著名电子商务网站,诸如亚马逊、CDnow、eBay、淘宝网等都采用了各式各样不同个性化水平的推荐系统。推荐系统中最核心和关键的是所采用的推荐技术,它决定了推荐系统性能的好坏。因此,加强对电子商务系统个性化推荐技术研究具有非常重要的实际意义。现在,主要的推荐技术有:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。其中,协同过滤推荐是应用最早和最为成功的技术之一,而基于用户的协同过滤推荐又是最容易理解的一种技术。

一、协同过滤推荐

协同过滤推荐技术在个性化推荐系统中应用最广,主要的可分为基于用户和基于项目的协同过滤算法。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的“最近邻居”对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求,能处理如音乐、电影等这样非结构化的复杂对象。

协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。

协同过滤推荐的一般步骤是:

交易数据库测量用户间相似性寻找相似用户计算商品的购买可能性根据购买可能性推荐商品。

二、基于用户的协同过滤推荐

1.算法

基于用户的协同过滤是到目前为止实际应用中最为成功的个性化推荐技术,算法的基本思想是将具有相同爱好的用户感兴趣的项目推荐给目标用户。假如目标用户对项目的评价与他的“最近邻居”相似,而目标用户对某个项目的评价可以从他的“最近邻居”的评价中综合得到。

基于用户的协同过滤推荐算法主要包括三个过程:

(1)表示:建立一个用户-项目评价矩阵描述用户对项目的评价。用户的判断和偏好明确地表示为一个m*n的用户-项目评价矩阵R,这里m是用户数,n是项目数,R=(rij),元素rij表示用户i对项目j的评价。在电子商务推荐系统中,元素rij既可表示用户是否购买商品(例如0或者1),也可表示用户对商品的偏好程度(例如评分从1到10)。

(2)生成“邻居”:通过计算所有用户对之间的相似度形成“邻居”。计算系统中目标用户与其他所有用户的相似度,以找出K个最相似用户集—“最近邻居”。K-“最近邻居”依相似度排序。

(3)产生推荐:通过加权目标用户“邻居”对目标项目的评价产生推荐。根据“最近邻居”集,可计算目标用户对项目的预测评价值,进而产生推荐。假定用户i的“最近邻居”集为Si,用户i对项目x的预测评价值为pi,x,用户i和用户j的相似度为sim(i,j),用户i和用户j的平均评价值分别为,那么有:

2.相似度计算方法

计算两个用户之间相似度的方法主要有三种:余弦相似度、相关相似度以及修正的余弦相似度,分述如下:

(1)余弦相似度:每个用户的评分作为n维项目空间中的一个向量。如果某个用户没有对一个项目评价,则其默认评价值设为0。两个用户i和j之间的相似性通过计算两个向量和夹角的余弦得到,记为sim(i,j),计算公式如下:

(2)相关相似度:在余弦相似度计算中没有考虑不同用户之间评价范围的差别。相关相似度通过减去用户对项目平均评价值来克服上述缺陷。两个用户i和j之间的相似性通过计算pearson相关性得到。假定用户i和用户j共同评价的项目集合为,那么相关相似度计算公式如下:

其中:Ri,x为用户i对项目j的评价值,和分别为用户i和用户j的平均评价值。

(3)修正的余弦相似度:在相关相似度计算公式中,如果同时考虑用户i和用户j的评价项目集合,那么得到修正的余弦相似度计算公式如下:

其中:ii和ij分别为用户i和用户j的评价项目集合。

3.算法优点和缺点

基于用户的协同过滤算法很容易理解,与其他众多实际应用中的推荐算法相比显示出较高的推荐精度,它具有如下一些优点:

(1)能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。

(2)共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。

(3)有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的,可以发现用户潜在的但自己尚未发现的兴趣偏好。

(4)能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。

虽然基于用户的协同过滤作为一种典型的推荐技术有其相当的应用,但随着电子商务系统规模的不断扩大,用户空间和项目空间急剧增长,该算法也存在以下缺点:

①稀疏性:在一个大型电子商务系统中,用户涉及的信息量相当有限,用户评价项目数少于总项目数的10%,造成评价矩阵数据相当稀疏,难以找到相似用户集,导致推荐效果大大降低。

②冷开始:这个问题可看作是极端严重的稀疏性问题。一方面,它很难向新用户提供个性化推荐服务;另一方面,在这种情况下,仅有少量评价数据不可能产生精确推荐。

③扩展性:基于用户的协同过滤算法的计算量随着用户和项目的增加而急剧增加,其最坏情况下的计算复杂度为o(mn)。对于一个典型的具有成百上千万用户和项目的电子商务系统,算法将遭遇到严重的扩展性问题。

计算机研究生推荐方向篇9

abstract:thispaperaimsatcollegelearningresourcesinformationsurplusproblemandfailureinpersonalizedresourcesrecommendationforlearners.inviewoftheresearchenlightenmentofe-commercepersonalizedrecommendationmodel,thispapertriestoapplycollaborativefilteringtechnologytocollegelearningresourcesforpersonalizedrecommendationtechnologyresearch.thispaperanalyzesthetypesofcollaborativefilteringtechnologypersonalizedrecommendationsystemandtheproject-basedrecommendationsystemmodelprocess,andfinallyanalyzestheapplicationprocessofcollaborativefilteringtechnologyinthecollegelearningresourcescombinedwithcaseanalysisandproposestheimprovementmethodinviewoftheproblemsexistingincollaborativefilteringalgorithm.

关键词:学习资源;协同过滤算法;个性推荐

Keywords:learningresources;collaborativefilteringalgorithm;recommendation

0引言

随着大数据时代到来,信息无限膨胀,目前高校网络学习资源平台不断完善以及使用系统读者越来越多,海量数据资源,使得高校师生在平台搜索资源效率急剧下降,面对大量的搜索结果信息常常无法快速而精准选择到有用信息。目前用户在学习资源平台查找学习资料主要通过搜索技术,最经常使用的是关键字搜索,这种被动式搜索无法根据用户偏好特征主动推送客户感兴趣学习资源,影响客户选择价值资源效率。个性化推荐技术应用正解决了传统被动式检索问题,个性化推荐系统正是一种崭新的智能个性化信息服务方式,它以客户需求为导向,或通过对用户个性特征、行为习惯、个人偏好的等个性化特征分析,精准地向用户推送感兴趣的信息和服务的推荐技术。鉴于此,文章系统描述了个性推荐系统技术以及其工作原理。

1协同过滤推荐技术概述

2协同过滤推荐技术算法实现过程

针对高校学习资源,比较适合采用基于项目协同过滤技术,基于项目之间相似度计算可以离线进行,这个提升了用户对系统响应速度。而且不同客户共同购买的商品数比较小,所以商品之间计算相似度,速度会更快。协同过滤个性推荐系统实现过程主要包括三个不部分,第一是收集数据源,第二是计算产品或用户相似推荐算法,第三是推荐用户或推荐产品。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。如图1所示。

2.1信息源收集

高校学习资源,主要包括图书,文献,杂志,论文等,图书馆保存有学生和教师借阅图书和文献记录,则可以筛选字段学生id和书名或者图书id等信息,用户对图书资源评分,转换如表1,0表示未借阅,1表示已借阅。

2.2计算产品推荐相似度

计算相似度是协同过滤技术最核心步骤,计算产品与产品之间相似度,是通过用户i对产品j,共同评分所有资源集合,即获得用户-资源评分矩阵表。然后通过余弦相似度相似性度量方法来计算产品相似度。

将向量根据坐标值,绘制到向量空间中。求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

计算机操作系统:Cos12=0.67;Cos13=0.67;Cos14=0;

2.3获得项目-项目相似表

通过两表差集,过滤重复条目,得出以下结果,如表2。

选择余弦值相似度比较高设置过滤余弦相似度小于0.6的条目,则最后得到满足条件是2条,如表3。

2.4关联原表对读者产生推荐

3协同过滤算法缺陷以及解决方法

3.1数据稀缺问题

由于图书资源数量比较多,而且读者是比较少的,对资源评分只是一小部分,那么会导致读者-资源评分矩阵数据将会是稀疏的。数据稀疏,难以产生产品相似集。针对稀缺矩阵问题,在实践中可以采用多种方法解决,方法一,可以通过标签系统方式,把未评分的图书给它打上标签。而这个标签是可以参考已有评分资源的。方法二,可以通过人为的,专家打分。方法三,可以设置默认缺省值来代替(可以取资源评分的均值)。方法四,可以通过项目评分预测法,通过计算资源条目之间的相似性,读者对相似项目评分来预测读者对未评分项目的评分[8]。

3.2冷启动问题

对于新读者而言,由于他没有借阅过任何图书,系统中没有该读者任何访问或者借阅记录,所以系统无法为其找相似邻居集,而不进行推荐。对新的资源也是如此,无任何用户对该资源进行评分,无资源评分记录,就无法被协同过滤算法进行推荐。针对冷启动问题,可以将新资源属性与其他有评分资源进行聚类分析,新资源所属的类的特征以及评分值大小,可以将类中评分值设置为新资源评分。

4结语

协同过滤个性化推荐系统应用在高校学习资源平台进行,对于高校师生高效积累学习资源和提升学习效果具有重要意义。

①实现了精准推荐服务不仅可以提高学习个体学习兴趣,还可以提供服务质量,可以有效的保留用户,提高对平台应用忠诚度,有助于学习资源平台发展优化建立人气。②如果高校学习平台具有电子商务功能提高电子商务网站的交叉销售能力,并将且在的浏览者转化购买者。比如在平台中增加二手图书购买,若借用个性推荐系统,不仅提升用户体验满意度而且促进购买。

参考文献:

[4]邓爱林.电子商务推荐系统关键技术研究[D].上海:复旦大学,2003.

[5]王永固,邱飞岳,赵建龙,刘晖.基于协同过滤技术的学习资源个性化推荐研究[J].远程教育杂志,2011,3.

计算机研究生推荐方向篇10

【关键词】协同过滤信任度相似度电影推荐

一、引言

随着互联网的发展,人们很难再海量的数据中快速找到自己需要的资源,很多网站想挖掘用户的偏好向用户推荐他们感兴趣的物品,协同过滤是最常用的推荐技术[1]。推荐技术主要有基于物品的推荐与基于用户的推荐及混合推荐三种。许多研究人员提出了不同的算法来提高推荐可靠性,如采用不同聚类方法的协同过滤[2]。本文采用基于用户的推荐方法,最后实验表明改进后的方法比传统协同过滤算法更可靠。

二、传统协同过滤推荐算法

传统的协同过滤的一般过程是根据用户评分对用户进行相似度的计算,根据相似度找到用户的邻居用户,然后由邻居用户的喜好来预测评分进行推荐[3]。

用户相似度的计算是产生邻居用户并根据邻居用户进行个性化推荐的重要步骤,person相似度算法是常用的相似度计算方法。设用户u和v共同评分过的物品集合为iuv,则相似性sim(u,v)为:

3.1相似度的修正

3.2引入信任度

传统的协同过滤算法在预测用户关于物品的评分时,只考虑了两个用户间的相似度,而忽视了该评分或该用户是否可信。景民昌等人提出“专家信任度”的概念[4],用来衡量用户向其他用户提供可靠信息的能力。用户u关于物品i的评价可信度为

4.1数据集和评价标准

本文采用movieLens站点提供的ml-100k公开数据集,对提出的算法优化并传统的协同过滤算法进行了对比实验。该数据集包含了943个用户对1682部电影的100000条评分,评分范围是1到5分。

进行实验时,将实验数据的20%用户划为测试集,其它80%用户为训练集。利用训练集用户对测试集用户进行推荐。

采用均方根误差RmSe(RootmeanSquarederror)来衡量预测结果与用户真实评分之间的误差。

4.2实验结果

本文通过实验来比较传统协同过滤算法与综合改进的协同过滤算法的性能,在邻居数为50的情况下,传统协同过滤算法得到的RmSe为1.15,改进的算法RmSe为0.93,改进的协同过滤方法有较小的误差。由此可知,与传统的相似性度量方法相比,本文提出的改进可以显著地提高推荐系统的推荐质量。

五、结语

本文介绍了协同过滤的基本原理,提出了一种改进的协同过滤算法,一定程度上提高了推荐准确度和可靠性,但实验中仍存在一些问题,有待进一步研究。

参考文献

[1]项亮.推荐系统实践[m].北京:人民邮电出版社,2012:3-4.

[2]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.