资源预览内容
第1页 / 共46页
第2页 / 共46页
第3页 / 共46页
第4页 / 共46页
第5页 / 共46页
第6页 / 共46页
第7页 / 共46页
第8页 / 共46页
第9页 / 共46页
第10页 / 共46页
第11页 / 共46页
第12页 / 共46页
第13页 / 共46页
第14页 / 共46页
第15页 / 共46页
第16页 / 共46页
第17页 / 共46页
第18页 / 共46页
第19页 / 共46页
第20页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,基于用户行为相似性推荐更适合交流的好友,CNNIC,参赛作品答辩,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,2013-03-17,*,基于用户行为相似性推荐更适合交流的好友,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,CNNIC,参赛作品,原创性声明,本人郑重声明:所呈交的参赛作品,是团队的共同努力下,独立进行研究工作所取得的成果。本人完全意识到本声明的法律结果由本人承担。,参赛作者签名:,日期:,CNNIC参赛作品原创性声明 本人郑重声,2012-05-27,基于用户行为相似性推荐更适合交流的朋友设计与实现,1,参 赛 人,2012-05-27基于用户行为相似性推荐更适合交流的朋友设,第,3,章,好友推荐理论依据,第,1,章,问题背景,主要内容,第,2,章,相关技术介绍,第,4,章,好友推荐系统的实验与实现,第,5,章,总结与展望,2,第3章 好友推荐理论依据第1章 问题背景主要内容第2章 相关,1.1课题背景及意义,推荐系统解决了什么问题,信息过载,信息消费者和信息生产者都遇到很大挑战,对于信息消费者来说,要在大量的信息中获取自己想要的信息很困难,对于信息生产者来说,要留住用户,让自己的信息更被关注,也是一件很困难的事情,推荐系统就是自动联系用户与用户、用户与物品的一种工具,从某种意义上讲,推荐系统和搜索引擎是,2,个互补的工具,第,1,章 问题背景,3,1.1课题背景及意义推荐系统解决了什么问题第1章 问题背,4,1.3推荐系统的应用,电子商务,Amazon,被称为推荐系统之王,国内的淘宝、当当也在积极使用推荐策略,电影、视频网站,在电影和视频网站中,个性化推荐系统也是一种重要的应用,Netflix,在,2006,年报开始举办著名的,Netflix Prize,推荐系统比赛,Youtube,作为美国最大的视频网站,拥有大量用户上传的视频内容,Pandora,、,last.fm,、国内的豆瓣电台都是个性化网络电台,但背后的技术却不一样,个性化阅读,Google Reader,容许用户关注自己感兴趣的人,然后看到所有关注用户分享的文章,第,1,章 概述,4,41.3推荐系统的应用电子商务第1章 概述4,5,1.3推荐系统的应用,基于位置服务,(LBS),在中关村闲逛时,肚子饿了,手机会给你推荐几家中关村不错的饭馆。,微信、陌陌等会给你推荐附近的好友,社交网络之好友推荐,好友关系是社会化网站的重要组成部分,国际上有,3,个著名的社交网站,Facebook,、,LinkedIn,和,Twitter,国内社交网站代表是新浪微博、校内网和腾讯好友网,第,1,章 概述,5,51.3推荐系统的应用基于位置服务(LBS)第1章 概述5,1.2推荐系统研究的内容,数据来源,利用用户的行为数据,利用用户标签数据,利用上下文信息,利用社交网络数据,推荐算法的研究,基于邻域的算法是推荐系统中最基本的算法,包括基于用户的协同过滤算法和基于物品的协同过滤算法,隐语义模型是最近几年推荐系统领域最热门的研究话题,基于图的模型,推荐算法评价,用户满意度,预测准确度,包括评分预测,TopN,推荐,覆盖率,惊喜度,第,1,章 概述,6,1.2推荐系统研究的内容数据来源第1章 概述6,第,3,章 好友推荐理论依据,第,1,章,概述,主要内容,第,2,章,相关技术分析,第,4,章,好友推荐系统的实现,第,5,章,总结与展望,7,第3章 好友推荐理论依据第1章 概述主要内容第2章 相关技术,本文主要使用到的相关技术,2.1CNNIC,数据分析技术,信息特征提取和用户使用电脑软件及浏览网页的行为特征的提取,以及数据预处理技术,2.2,推荐系统及相似度研究理论,相似度理论,余弦相似性,K-means,聚类算法,推荐系统的研究,-,协同过滤算法,基于用户相似的协同过滤算法,降维算法,2.3B/S,展示,最后通过网站来展示推荐结果,第,2,章 相关技术分析,8,本文主要使用到的相关技术2.1CNNIC数据分析技术第2章,第,3,章,好友推荐算法设计,第,1,章,概述,主要内容,第,2,章,相关技术分析,第,4,章,好友系统的实现,第,5,章,总结与展望,9,第3章 好友推荐算法设计第1章 概述主要内容第2章 相关技术,基于内容的匹配,用户人口统计学属性,包括年龄、性别、职业、毕业学校和工作单位等,用户兴趣,包括用户喜欢的物品和发布过的言论等,用户的位置信息,包括用户的住址、,IP,地址和邮编等,基于共同兴趣的好友推荐,前面介绍基于用户的协同过滤算法,基于社交网络图的好友推荐,最简单的好友推荐算法是给用户推荐好友的好友,10,给用户推荐好友,基于内容的匹配10给用户推荐好友,3.1现存好友推荐模型及缺点,1.,根据好友之间的互动次数衡量两者的亲密度,2.,通过任意,2,个用户的手机交互次数进行推荐,3.,按照用户关注的,blog,或者用户去过的地方分析出用户兴趣模型进行推荐,4.,按照用户关系先建立完全子图,子图满足任何两个用户中都是具有友好关系的,接着子图之间按照共同用户数进行合并得出图中必然有用户之间还未建立的友好关系从而产生推荐,5.,基于社区划分和用户相似度来进行好友推荐,6.,根据用户长相来推荐,第,3,章 好友推荐算法的设计,11,3.1现存好友推荐模型及缺点1.根据好友之间的互动次数衡量,3.1现存好友推荐模型及缺点,第一个和第二个模型相同点是通过用户的交互次数,所以缺陷相同:两个用户因为做同样一件事情而产生的交互比较多但现实世界中他们并不熟悉。有的用户本身比较活跃,产生的交互也比较多,但并不代表他与每个人都亲密。,第三个根据blog或用户行为模型,考虑了用户的行为,但缺乏用户的档案信息,也没有用户之间的关系。,第四个根据用户关系建立完全子图,忽略了用户行为爱好,第,3,章 好友推荐算法的设计,12,3.1现存好友推荐模型及缺点第一个和第二个模型相同点是通过,3.2好友推荐化算法总体框架,第,3,章 好友推荐的算法设计,图,32,好友推荐算法,总体框架,13,3.2好友推荐化算法总体框架第3章 好友推荐的算法设计图3,14,数据收集与清洗,从,CNNIC,数据集里提取数据,获取用户行为特征,清洗数据噪声,相似度计算,从三个维度生成用户特征向量,计算三个维度的相似度,通过加权获取最终的相似度。,网页展示,计算最终相似度并通过,php,网页展示推荐结果,3.2好友推荐化算法总体框架,第,3,章 好友推荐的算法设计,14数据收集与清洗3.2好友推荐化算法总体框架第3章 好友,3.3CNNIC数据清洗及数据预处理,本文通过,CNNIC,(,http:/ 好友推荐的算法设计,15,表,33 CNNIC,数据中的噪声类型及其特征,噪声原因,噪声类型,特征,数据集存在为空的数据,用户所在地点,unknow,user,中非空字段为空,城市名称不对,省份名称为上泀,,,3.3CNNIC数据清洗及数据预处理本文通过CNNIC(h,3.4.1 用户档案信息相似度计算,用户档案信息是挖掘用户行为的一种重要资源。我们选取,2,个属性说明:,第,3,章 好友推荐的算法设计,16,3.4.1 用户档案信息相似度计算用户档案信息是挖掘用户行为,17,不同的职业用户的分布图,17不同的职业用户的分布图,3.4.1 用户档案信息相似度计算,这里采用K-means聚类算法,我们从个人资料中选择四个特征:职业、学历、省份和城市,然后用k-means聚类。属于同一类的的用户相似权重比较高。我们会优先进行推荐。,第,3,章 好友推荐的算法设计,图,34,计算子网中用户相似度,18,3.4.1 用户档案信息相似度计算这里采用K-means聚类,3.4.2 用户浏览网站相似度,基本思想:,首先提取出所有用户浏览的网址,并计算出每个网址的浏览数量,过滤掉访问网址比较少和网址特别多的网站,计算出网址在用户访问网址的比例,构建出用户访问网址的向量,通过余弦函数计算出用户之间的相似度,余弦公式,A,和,B,分别是两个用户。,第,3,章 好友推荐的算法设计,19,3.4.2 用户浏览网站相似度基本思想:第3章 好友推荐的算,1.将每个用户浏览的网址和软件提取出来,每个用户对应一个文本:,2.从文本里提取关键字:keyword.txt,20,数据预先处理,第,3,章 好友推荐的算法设计,1.将每个用户浏览的网址和软件提取出来,每个用户对应一个文,统计每个关键字用户的数量:,keyword_user_number.txt,最终统计出来关键字有,10,多万个网址,也就是用户访问网址特征有,10,万多维,这是个很稀疏的矩阵。所以需要降维处理。,21,数据预先处理,第,3,章 好友推荐的算法设计,统计每个关键字用户的数量:keyword_user_numb,数据预处理,本文是对,CNNIC,在,2012,年,8,月,12,日至,8,月,31,日,期间的,5000,个用户的电脑使用行为及用户的个人资料进行了统计分析。部分统计结果如表,3-5,所示。,22,第,3,章好友推荐的算法设计,表,35 CNNIC,部分网址的数据统计,数据预处理本文是对CNNIC在2012年8月12日至8月31,对关键字过滤,最终生成一个247个维度的向量:生成keyword_filter.txt,23,数据预先处理,第,3,章 好友推荐的算法设计,对关键字过滤,最终生成一个247个维度的向量:生成keywo,统计每个用户浏览的网址的频率:生成,user_id_keyword.txt,24,数据预先处理,统计每个用户浏览的网址的频率:生成user_id_keywo,以下是用户向量矩阵:我们选择了差不多选择247个维度。保存为similarity_web.txt文本,25,相似度计算,以下是用户向量矩阵:我们选择了差不多选择247个维度。保存为,假设用户浏览网站相似度为,s,,,对于用户个人信息聚类结果,我们设定同一类里面的用户相似度为,u,,不同类之间的用户相似度为,v,(,u+v=1,),用户浏览网站在总相似度计算中所占比重为,c,,那么用户个人信息相似度比例就为(,1-c,),所以,最终两个用户相似度计算公式为:,s*c+(1-c)*u,假设用户属于同一个类,s,*,c+(1-c)*v,假设用户不属于同一类,计算结果直接保存到数据库里,26,计算最终相似度,假设用户浏览网站相似度为s,26计算最终相似度,第,3,章,好友推荐算法设计,第,1,章,概述,主要内容,第,2,章,相关技术分析,第,4,章,好友推荐系统的实现,第,5,章,总结与展望,27,第3章 好友推荐算法设计第1章 概述主要内容第2章 相关技术,4系统架构设计,本系统分为数据库、服务端和,Web,端三个部分,数据库:采用,MySQL,数据库存取挖掘生成的相似度和网站数据,服务端:主要是,PHP,服务程序与接口,Web,端:用,PHP+HTML+CSS+jQuery,搭建页面,第,4,章 好友推荐系统的实现,图,41,系统业务逻辑框架图,28,4系统架构设计本系统分为数据库、服务端和Web端三个部分第,4.1数据库设计,数据库共有四张表:,user/user_similarity/user_web/web,user,:存储,demographic.csv,文件的用户
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6