求冷库地面做法法个性化推荐?拜托大家了~

&br&-----------------------------------------&br&除了知友&a class=&internal& href=&/people/yan-lin&&严林&/a&的推荐外,再附上一些值得读的经典论文。具体如下:&br&&br&推荐基础(主要涉及矩阵分解、隐式反馈等):&br&&p&1. &a href=&///?target=https%3A//www.cs.umd.edu/%7Esamir/498/Amazon-Recommendations.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Recommendations Item-to-Item Collaborative Filtering&i class=&icon-external&&&/i&&/a&&/p&&p&2. &a href=&///?target=https%3A//papers.nips.cc/paper/3208-probabilistic-matrix-factorization.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Probabilistic Matrix Factorization&i class=&icon-external&&&/i&&/a&&/p&3. &a href=&///?target=https%3A///data-science-repo/Recommender-Systems& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Matrix Factoritorization Techniques For Recommender Systems&i class=&icon-external&&&/i&&/a&&br&&p&4. &a href=&///?target=http%3A//yifanhu.net/PUB/cf.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Collaborative Filtering for Implicit Feedback Datasets&i class=&icon-external&&&/i&&/a&&/p&&p&5. &a href=&///?target=http%3A//citeseerx.ist.psu.edu/viewdoc/download%3Fdoi%3D10.1.1.304.2464%26rep%3Drep1%26type%3Dpdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SoRec: Social Recommendation Using Probabilistic Matrix Factorization&i class=&icon-external&&&/i&&/a&&/p&6. &a href=&///?target=https%3A//arxiv.org/pdf/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Bayesian Personalized Ranking from Implicit Feedback&i class=&icon-external&&&/i&&/a&&br&&br&&p&分布式推荐(主要考虑ALS和SGD的并行):&/p&&p&7. &a href=&///?target=http%3A//www.grappa.univ-lille3.fr/%7Emary/cours/stats/centrale/reco/paper/MatrixFactorizationALS.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Large-scale Parallel Collaborative Filtering for the Netflix Prize&i class=&icon-external&&&/i&&/a&&/p&&p&8. &a href=&///?target=https%3A//people.mpi-inf.mpg.de/%7Ergemulla/publications/gemulla11dsgd.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent&i class=&icon-external&&&/i&&/a&&/p&&p&9. &a href=&///?target=http%3A//www.cs.utexas.edu/%7Ecjhsieh/icdm-pmf.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Scalable Coordinate Descent Approaches to Parallel Matrix Factorization for Recommender Systems&i class=&icon-external&&&/i&&/a&&/p&&br&&p&结合深度学习(大部分可以归类为混合推荐,有一些则是用DL直接做协同过滤):&/p&&p&10. &a href=&///?target=http%3A//dl.acm.org/citation.cfm%3Fid%3D1273596& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Restricted Boltzmann Machines for Collaborative Filtering&i class=&icon-external&&&/i&&/a&&br&&/p&&p&11. &a href=&///?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Hybrid Collaborative Filtering with Neural Networks&i class=&icon-external&&&/i&&/a&&br&&/p&&p&12. &a href=&///?target=https%3A//papers.nips.cc/paper/5004-deep-content-based-music-recommendation& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Deep content-based music recommendation&i class=&icon-external&&&/i&&/a&&/p&&p&13. &a href=&///?target=http%3A//www.wanghao.in/mis/RSDAE_EPFL.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Relational Stacked Denoising Autoencoder for Tag Recommendation&i class=&icon-external&&&/i&&/a&&/p&14. &a href=&///?target=https%3A//arxiv.org/pdf/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Collaborative Deep Learning for Recommender Systems&i class=&icon-external&&&/i&&/a&&br&&p&15. &a href=&///?target=http%3A//ieeexplore.ieee.org/xpls/abs_all.jsp%3Farnumber%3D7395726& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&A Deep Embedding Model for Co-occurrence Learning&i class=&icon-external&&&/i&&/a&&/p&&p&16. &a href=&///?target=http%3A//dawenl.github.io/publications/LiangACB16-cofactor.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Factorization Meets the Item Embedding: Regularizing Matrix Factorization with Item Co-occurrence&i class=&icon-external&&&/i&&/a&&/p&&br&----------------------------------------&br&可以进一步参考我在另一个问题上的答案,介绍的是&a href=&///?target=http%3A//dl.acm.org/citation.cfm%3Fid%3D2020480& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Collaborative Topic Regression&CTR&&i class=&icon-external&&&/i&&/a&系列论文,算是近几年混合推荐里比较好的模型了,2015年被纽约时报作为其推荐基础。&br&&a href=&/question//answer/?group_id=136832& class=&internal&&推荐系统有哪些比较好的论文? - 李其柄的回答&/a&&br&&br&ps,最近开始尝试自己编辑,欢迎大家指正和交流。
----------------------------------------- 除了知友的推荐外,再附上一些值得读的经典论文。具体如下: 推荐基础(主要涉及矩阵分解、隐式反馈等): 1. 2.
很多研究人员,包括Koren和我谈过,都认为负反馈很重要。但这句话的意思并不是负反馈比正反馈重要,而是说负反馈比没有负反馈重要。&br&&br&taobao应该有相当多的正反馈数据,比如用户的购买行为等等,因此我觉得他提出hate的功能还是有其道理的。
很多研究人员,包括Koren和我谈过,都认为负反馈很重要。但这句话的意思并不是负反馈比正反馈重要,而是说负反馈比没有负反馈重要。 taobao应该有相当多的正反馈数据,比如用户的购买行为等等,因此我觉得他提出hate的功能还是有其道理的。
我从师徒网的一节中复制出来的。&br&&a href=&///?target=http%3A//quweiprotoss./blog/static//& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&计算广告学-广告基本知识&i class=&icon-external&&&/i&&/a&,这个我整理的网页,里面有一个表格。我复制的表格显示不正确,直接链过去看吧&b&&br&&/b&&br&&b&广告&/b&明显比&b&搜索&/b&容易部分的是不需要复杂的爬虫技术和PageRank。而它比搜索困难的地方是它需要建模的数据量比搜索要大。搜索,广告与推荐三者的主要区别在于它们的准则不同,搜索主要是针对相关性,广告主要针对ROI。举例来讲,比如搜索美联行,那么对于搜索来讲,必须将美联行放到结果首位,否则就不合理。但对于广告来讲,如果美联行代理公司的广告点击率高于美联行本身,因为针对的是ROI,所以它可以将美联行代理排在前面,而不需要将authority的美联行排在前面。&br&
一些文章中把&b&推荐&/b&(recommendation)和&b&个性化&/b&(personalization)
视为同义词,但个人认为两者还是有所不同,个人认为个性化是推荐的一个准则,但推荐还有其它准则,比如多样性,新鲜度,三者结合,才会有很好的效果。比如
一个从不关心军事的用户,但如果因钓鱼岛问题而进行战争时,对于这种非常重要的新闻时,推荐应该将这种新闻推荐给这个用户。&br&&b&推荐&/b&和&b&广告&/b&比较大的区别是:推荐进行的是同质化的推荐,比如在买商品的时候推荐商品,在看新闻的时候推荐其它新闻。另外推荐还有优化流(downstream)的概念,比如用户在看新闻时,会根据推荐跳到另一个新闻页面,而在这个新闻页面上可以继续推荐,优化流是指优化整个根据推荐看新闻过程的点击率。而对于广告来讲,推荐出的广告点击后,就跳到目标页面了,就不可能有优化downstream的机会了。
我从师徒网的一节中复制出来的。 ,这个我整理的网页,里面有一个表格。我复制的表格显示不正确,直接链过去看吧
广告明显比搜索容易部分的是不需要复杂的爬虫技术和PageRank。而它比搜索困难的地方是它需要建模的数据量比搜索要大…
一、从数据方面来说&br&
它们都有自己的一套推荐系统,但是百分点分析所需要的数据来自第三方系统,给别公司系统做推荐服务,这样的它采集的数据必然有限,我认为第三方系统不可能将自己全部的数据都让Load过去分析,这样的话,分析用户行为会有一定的影响。而亚马逊能获到本身系统用户的所有的数据,再加上它有的宠大的用户群体,就数据这一块来说,亚马逊可能会比较好一些吧。&br&
首先推荐必须要有足够的数据作为基础, 只有用户的行为数据足够丰富,才能准确分析用户偏好,这就是所谓的数据为王。&br&数据有如下几类:&br&1) 基础数据, &br&a. 会员基本信息
b.产品的基本信息&br&2)用户行为数据 &br&a. 用户Browse的产品分类,及产品,还有用户在browse时停留的时间 &br&b. 用户Click的 Product item 相关的数据 (Click recommend product, Click system product)&br&c. 还有最重要的 Puchased products, 也就是用户提交的购物车&br&d. 用户给相应Product的评论,所打的标签&br&3) 自己的第三方社会化网络系统的用户行为数据的挖掘提取, 如Blog, SNS系统&br&象这些数据都是分析主要数据,那么完整性数据源,对于分析用户Preferences与Bundle, 及对用户行为的预测都至关重要。&br&&br&二、推荐引擎&br&  推荐引擎是建立在算法框架基础之上的一套完整的推荐系统,亚马逊购物网站有35%的页面来自它的推荐引擎,将其深度整合到购物流程的方方面面,从商品发掘到结账付款,几乎无处不在。如果亚马逊没有自己的比较完善的推荐算法引擎,不可能用这么大的使用覆盖面,当然算法引擎只属于推荐引擎的一部分, 还有场景引擎,规则引擎,内容引擎, 这些引擎它们都做得不错。现在从算法的上来说亚马逊的特点: 亚马逊有自己有比较完善基于Item-to-Item的协同过滤算法, 通过这个算法能向用户推荐较丰富长尾物品,个性化程度很高, 而且能给用户比较信服的推荐解释。&br&&br&三、大数据与推荐集的时效性&br&
对用户行为数据的处理,对推荐算法所用到的数据模型训练时效性尤为重要如Item之间的相似度,用户模型的更新,由于数据量过大,亚马逊有自己的云服务平台(AWS),对于大数量的处理有先天的优势。&br&&br&四、推荐手段&br&
亚马逊除了网站推荐之外,还有向用户定期地发送大量的个性化邮件,增加产品的销售, 而且跟踪邮件中用户的反馈行为,不断地训练自己的推荐结果。
一、从数据方面来说 它们都有自己的一套推荐系统,但是百分点分析所需要的数据来自第三方系统,给别公司系统做推荐服务,这样的它采集的数据必然有限,我认为第三方系统不可能将自己全部的数据都让Load过去分析,这样的话,分析用户行为会有一定的影响。而…
Timeline对微博(Twitter)这类产品来说,是几近完美的解决方案。每个人的timeline都不相同,其差异来自follow的人不同。微博从来都不是为解决信息过载问题而设计的,它最初的想法,来自随时随地记录个人状态,并与好友分享。后来变成实时信息发布和获取的工具,follow机制的设置,让微博成为一种兼顾实时与质量的媒体工具。&br&&br&当然,通过公开的信息内容,以及APIs,第三方可以做微博信息的二次加工和处理,比如TweetMeme。更进一步,根据你所follow的人,发现其中的热点信息,以及与你的兴趣点相关的其他信息,也不是很困难的事。但这些工作的性质,已经接近信息处理工具,而不是实时媒体工具。&br&&br&如果你在微博上总是看不到想看的内容,很可能你需要整理一下你的follow名单了。在大多数情况下,如果我们觉得微博有用,就证明微博上的冗余和无关信息,是可接受的。
Timeline对微博(Twitter)这类产品来说,是几近完美的解决方案。每个人的timeline都不相同,其差异来自follow的人不同。微博从来都不是为解决信息过载问题而设计的,它最初的想法,来自随时随地记录个人状态,并与好友分享。后来变成实时信息发布和获取的…
&p&答:个性化推荐的原理大家都略懂,无非是依靠大数据对用户进行综合分析预估,利用智能算法之类的识别用户阅读兴趣,从而对用户进行精准性文章推荐。&/p&&p&无非是围绕下面四点来进行的。&/p&&p&第一点:文章热度&/p&&p&文章热度,包括了文章的阅读量、互动量(点赞、转发、分享、收藏、评论)。&/p&&p&第二点:文章阅读指标&/p&&p&文章阅读指标,则是以CTR(阅读曝光度和点击阅读数)为主要参照数据,文章首页面出现次数和被点击阅读次数的比例高低。&/p&&p&第三点:文章性质&/p&&p&文章性质如涉及到社会重大事件等,平台往往会自动推荐相关文章。&/p&&p&第四点:用户阅读模型&/p&&p&用户在平台发生一系列阅读行为,个性化推荐平台就会收集记录用户的阅读内容、文章类型、阅读时长、阅读时间段、用户使用环境等诸多阅读系列行为。根据用户大数据,合理科学的算法运算,大致估测出用户阅读兴趣。&/p&&p&实际上,这样的推荐算法已经非常成熟了。但一般来说,大多数还是停留在前3点,第4点没有海量数据和合理建模的话,并不容易实现。&/p&&p&但一般来说,符合前3点的内容,大多数都是满足受众的猎奇需求的。说句不好听的,这种文章大多数质量并不高。不信的话,可以打开你的APP看看。质量的高低本来就与受众面宽窄没有必然的关系,甚至如果放任内容的“肆意生长”,不好意思,在这种情况下的个性化推荐,呈现在首页的内容大多会是“黄赌毒”。所以我的观点是,个性化算法解决不了文章质量的问题,它只能解决推送是否精准的问题。&/p&&p&而对于文章的质量问题,最好的方式是在源头进行控制。现在看荐就是这么做的。一方面,引入自媒体内容,通过自媒体认证号推荐。另一方面,通过网友推荐、小编弱审核(主要是过滤广告)的方式,从“推荐”行为本身,规避肆意转载和抓取的垃圾信息。同时,看小荐对推荐到平台的优质内容进行精选推荐,确保优质内容更容易被更多用户看到,基本上能够对文章质量做一个把关,再通过个性化推荐把合适的内容推送给合适的用户。&/p&&p&个人认为,目前这个模式,是解决单纯依靠机器造成同质信息轰炸的问题,同时阅读环境会更纯粹一些,体验更良好一些。&/p&
答:个性化推荐的原理大家都略懂,无非是依靠大数据对用户进行综合分析预估,利用智能算法之类的识别用户阅读兴趣,从而对用户进行精准性文章推荐。无非是围绕下面四点来进行的。第一点:文章热度文章热度,包括了文章的阅读量、互动量(点赞、转发、分享、…
从大方向上看推荐算法可分为两种:行为挖掘推荐和内容挖掘推荐。行为推荐主要是算法思想是协同过滤,包括user-based,item-based,slopone。内容推荐一般设计文本挖掘的知识,比如你看过某篇文章,系统会通过文本相似度或者分类算法为你做推荐。当然纯粹的算法推荐还是不够,还需要一些补白的措施。我目前在为某大型通信公司做只能推荐系统项目,如果你感兴趣,以后可以多交流。
从大方向上看推荐算法可分为两种:行为挖掘推荐和内容挖掘推荐。行为推荐主要是算法思想是协同过滤,包括user-based,item-based,slopone。内容推荐一般设计文本挖掘的知识,比如你看过某篇文章,系统会通过文本相似度或者分类算法为你做推荐。当然纯粹的算…
最大的创新点是支持用户订阅任何感兴趣的话题以及自由创建话题。真正做到每一个用户的资讯频道列表都不一样,因为用户的兴趣是不一样的。&br&&br&不同:现有的个性化资讯应用更多的依然是传统门户客户端的延伸,还是在热点的新闻大类的基础上添加个性化推荐,几乎所有的个性化资讯应用在资讯频道列表上都有固定的设置,如:财经、军事、科技、社会、时政等等这些传统门户的新闻分类组织方式。而一点资讯,则摒弃了传统频道新闻组织方式,完全基于用户兴趣,利用强大的创新技术“兴趣引擎”智能计算用户兴趣,让每个用户的频道列表都不一样,真正做到“千人千面”的个人兴趣门户。
最大的创新点是支持用户订阅任何感兴趣的话题以及自由创建话题。真正做到每一个用户的资讯频道列表都不一样,因为用户的兴趣是不一样的。 不同:现有的个性化资讯应用更多的依然是传统门户客户端的延伸,还是在热点的新闻大类的基础上添加个性化推荐,几乎…
&p&听说,网易云音乐火的不得了。之前小母也没有用过,直到有一天,小母对一首普普通通的歌曲标记了喜欢,接着推荐歌单里出现了:&/p&&p&《那些年,你在AcFun上追过的歌曲》,小母当时的表情是这样的......&/p&&br&&p&天呐!听歌都会暴露自己A站基佬的属性!后来,小母见人便说:网易大法好!&/p&&br&&p&好了,这里不是广告,今天小母就要告诉你,现如今个性化推荐能够发展这么快的秘密在哪里。&/p&&br&对用户而言——如何快速获取自己想要的信息是互联网用户的主要需求之一,在用户对自己需求相对明确的时候,用搜索引擎(Google,百度等)能很方便的通过关键字搜索找到自己需要的信息。但在很多情况下,用户其实并不明确自己的需要,或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和喜好的结果,因此出现了推荐系统(引擎)。&br&&strong&1、实现原理和传统模式:&/strong&随着推荐引擎的出现,用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的信息发现。目前大部分电子商务和社交网站的推荐引擎的工作原理还是基于物品或者用户的相似集进行推荐。在海量物品和用户的系统中,推荐引擎的计算量是相当大的,要实现实时的推荐务必需要建立一个推荐模型。主流模型是基于协同过滤的推荐机制。它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐。基于协同过滤的推荐可以分为三个子类:基于用户的推荐,基于项目的推荐和基于模型的推荐。基于用户的协同过滤推荐的基本原理是,根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,在一般的应用中是采用计算“K- 邻居”的算法;然后,基于这 K 个邻居的历史偏好信息,为当前用户进行推荐。&br&&br&理解协同过滤&br&&br&&p&协同过滤是一种个性化的推荐算法,这种推荐算法在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。&/p&&p&与传统的,基于&strong&内容分析过滤&/strong&的推荐不同,协同过滤分析的是&strong&用户之间的区别与联系&/strong&。&/p&&br&&p&举个栗子&/p&&br&&p&基于内容分析的推荐:&/p&&p&小母喜欢歌曲A、B、C,通过分析得知A、B、C都是轻快的轻音乐,那么系统将推荐具有类似特征的轻音乐D给小母。&/p&&br&&p&基于协同过滤的推荐:&/p&&p&小母喜欢歌曲A、B、C,小公喜欢歌曲A、B、C、D,那么韩梅梅和李雷就有很大的相似性,系统将把小公喜欢的歌曲D推荐给小母。&/p&&br&&p&总结说来:协同过滤分析大量用户的兴趣,在用户群中找到与用户A有相似(兴趣)的用户BCD,综合相似用户BCD对某一内容进行评价,预测A对该内容的喜爱程度,从而决定是否进行推荐。&/p&&br&&img src=&/82a28fdd8faf4fa2e3778_b.jpg& data-rawwidth=&447& data-rawheight=&296& class=&origin_image zh-lightbox-thumb& width=&447& data-original=&/82a28fdd8faf4fa2e3778_r.jpg&&&br&&br&上图示意出基于用户的协同过滤推荐机制的基本原理,假设用户 A 喜欢物品 A,物品 C,用户 B 喜欢物品 B,用户 C 喜欢物品 A ,物品 C 和物品 D;从这些用户的历史喜好信息中,我们可以发现用户 A 和用户 C 的口味和偏好是比较类似的,同时用户 C 还喜欢物品 D,那么我们可以推断用户 A 可能也喜欢物品 D,因此可以将物品 D 推荐给用户 A。&br&基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度,基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。基于项目的协同过滤推荐的基本原理也是类似的,只是说它使用所有用户对物品或者信息的偏好,发现物品和物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户。 &br&&img src=&/480d8c4fbede2b3934cb28a_b.jpg& data-rawwidth=&456& data-rawheight=&319& class=&origin_image zh-lightbox-thumb& width=&456& data-original=&/480d8c4fbede2b3934cb28a_r.jpg&&&br&假设用户 A 喜欢物品 A 和物品 C,用户 B 喜欢物品 A,物品 B 和物品 C,用户 C 喜欢物品 A,从这些用户的历史喜好可以分析出物品 A 和物品 C 时比较类似的,喜欢物品 A 的人都喜欢物品 C,基于这个数据可以推断用户 C 很有可能也喜欢物品 C,所以系统会将物品 C 推荐给用户 C。与上面讲的类似,基于项目的协同过滤推荐和基于内容的推荐其实都是基于物品相似度预测推荐,只是相似度计算的方法不一样,前者是从用户历史的偏好推断,而后者是基于物品本身的属性特征信息。在大部分站点中,物品的个数是远远小于用户的数量的,而且物品的个数和相似度相对比较稳定,同时基于项目的机制比基于用户的实时性更好一些。基于模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐。现行主流的推荐往往是将多个方法混合在一起,从而达到更好的推荐效果。包括组合加权的混合、切换的混合、分区的混合、分层的混合等等。&br&&br&协同过滤的优势&p&与传统文本过滤相比,协同过滤有下列优点:&/p&&p&&strong&1) 能够过滤机器难以自动分析的信息&/strong&&/p&&p&在大量信息的推荐中,依靠专门的人力对信息进行识别分类的成本太大,大多是依靠机器进行自动识别。对于文本信息来说,可以进行关键字的比对,因此机器识别是很有效的,但对于艺术品、音乐这些信息来说,机器识别就十分困难。协同过滤的方法可以将大量的用户调动起来,几乎零成本地运用了人力识别的方法。&/p&&p&&strong&2)能够基于复杂概念(情感、品味)进行过滤&/strong&&/p&&p&同样,机器只能简单判断类别,但很难判断情感。品味。例如在云音乐上,我们经常看到用户编辑的“100首最伤感歌曲”推荐,依靠机器则难以判断歌曲情绪形成推荐。&/p&&p&&strong&3)能够保证推荐的新颖性&/strong&&/p&&p&一旦平台聚集了大量的用户,用户便时时刻刻在生产出新的信息,新的内容,保证了推荐内容的新颖性。&/p&&br&协同过滤的应用&p&昨天小编提到了“认知盈余”这一概念,协同过滤其实也是基于大众的认知进行的算法优化。每个人把自己的知识公开、贡献出来,便成为了可以改造推荐系统的巨大力量。&/p&&p&同样利用协同过滤推荐的还有很多电子商务系统,最著名的电子商务推荐系统应属亚马逊书店。&/p&&p&顾客在亚马逊中选择一本自己感兴趣的书籍,则会得到“喜欢此商品的顾客同时也购买”的推荐,小编搜索了昨天我们说的《认知盈余》这本书,然后得到了类似的推荐结果,就像这样:&/p&&br&&br&&p&这些推荐同样都是讲解社会网络,人类知识、行为之间的互相影响的书籍,小编表示,真的很符合我的爱好呀~&/p&&br&&p&对于互联网从业人士来说,协同过滤作为一种新的技术手段,带来的远远不是推荐准确度提高这么简单的改变。它告诉我们:用户的力量是无限大的。&/p&&p&开发、技术和数据分析人员可以考虑这种方式怎么提供更高质量的服务。而产品人员可以更深入的考虑怎样利用用户生产出高质量的信息,从而更好地提升产品的品质。&/p&
听说,网易云音乐火的不得了。之前小母也没有用过,直到有一天,小母对一首普普通通的歌曲标记了喜欢,接着推荐歌单里出现了:《那些年,你在AcFun上追过的歌曲》,小母当时的表情是这样的...... 天呐!听歌都会暴露自己A站基佬的属性!后来,小母见人便说…
前一段公司主App做文章个性化推荐,这个问题曾经想了好几天,我说一下我的做法。&br&&br&首先,用户的刷新行为可以分为三种,&b&初始化刷新、上拉刷新、下拉刷新&/b&&br&多数app将上拉和下拉会当做一种行为处理,都是得到下一页数据,这里为了方便讨论也将他们视为一种刷新&br&&br&ok,开始进入正题,这个问题有两种情况:&br&&b&一、无个性化&/b&&br&无个性化就是说每个使用你的app的人同一个时间刷出的feed流是一样的,并且按照某个key排序(例如时间或者文章id),每次刷新就类似翻页,由于文章有序,每次刷新接口里面有一个页码就可以了;当然如果不想使用页码参数,就要后台记录一下每一个用户现在刷到第几页(第几条),将这个信息存入redis(或者别的你可以想到的nosql服务)中,当客户端调用&b&初始化刷新接口&/b&清零这个页码计数,上拉、下拉的时候自增页码计数。&br&&br&&b&二、有个性化&/b&&br&这个刷新过程稍微复杂一些,并且和推荐逻辑密切相关;&br&例如下面几种推荐逻辑,不同的逻辑实现方式差别很大:&br&(1)通过算法计算出来用户对哪些文章感兴趣,做一个二分类,不感兴趣的文章剔除掉,剩余的按照『&b&&u&时间序』&/u&&/b&(或者某个序)推送给用户&br&(2)将文章按照天(星期)分桶,通过算法计算出来每个桶里面每个文章的得分,每个桶内只保留得分最高的topk(或者比例),然后按照『得分逆序』推送给用户&br&(3)将文章按照某种规则分桶,通过算法计算出来得分最高的&b&&u&一页&/u&&/b&文章推送给用户,用户再次刷新的时候,根据历史几页内容的反馈实时计算下一页的推荐内容&br&(4)....&br&&br&不同的推荐策略,会引发推荐引擎实现差别很大&br&&b&实现(1)和(2)推荐策略&/b&: 用户行为是初始化刷新的时候清空推荐缓存,引擎传入部分候选文章列表(记为&b&&i&列表A&/i&&/b&)调用算法算分(分类)服务,得到50页推荐结果,返回给用户第一页,缓存49页,标记已读部分;接下来下拉刷新从49页缓存中读取并标记已经读取的部分;如果前50页都刷完了,引擎从原始候选队列中过滤掉&b&&i&列表A&/i&&/b&后,在选取一部分文章&i&&b&列表B&/b&&/i&,传给算法算分,然后缓存结果,就这样周而复始(同时给50页缓存加上过期时间)。&br&&br&如果用户量很大,就要根据自己实际的存储能力设置合理的缓存失效时间和有效捕获用户退出『迹象』,从而可以立刻清空缓存。&br&&br&我一直做的是算法的工作,工程小白,欢迎大家拍砖哈~
前一段公司主App做文章个性化推荐,这个问题曾经想了好几天,我说一下我的做法。 首先,用户的刷新行为可以分为三种,初始化刷新、上拉刷新、下拉刷新 多数app将上拉和下拉会当做一种行为处理,都是得到下一页数据,这里为了方便讨论也将他们视为一种刷新 o…
对weka和vogoo都不太懂,尝试讲点小看法。&br&&br&在考虑引入推荐系统时,算法往往时最后考虑的,首先需要琢磨的是:&br&&ol&&li&为什么需要推荐系统,他解决什么问题?&/li&&li&产品特点、现有数据、用户习惯,是否适合来做推荐?适合做什么样的推荐?&/li&&/ol&&br&&br&具体到旅游领域,记得豆瓣的胖子同学在一个slide里面说过,他们尝试做旅游推荐的效果不佳,因为用户的消费成本非常高影响决策原因很多,后来证明不是太成功——也判断类似于书籍这样的推荐在旅游上面很难做。&br&&br&在我看来,旅游相关的决策问题其实很多,除了去哪儿以外,还有吃住行游方方面面,未必没有可做的空间;关键还是在于产品的定位吧,推荐系统也未必是最好的形式。
对weka和vogoo都不太懂,尝试讲点小看法。 在考虑引入推荐系统时,算法往往时最后考虑的,首先需要琢磨的是: 为什么需要推荐系统,他解决什么问题?产品特点、现有数据、用户习惯,是否适合来做推荐?适合做什么样的推荐? 具体到旅游领域,记得豆瓣的胖子…
&b&根本就不是个性化推荐!!!&/b&&br&以上是结论,下面说自己无聊而做的测试:&br&今日头条在appstore上宣称5s算出兴趣,如下图:&br&&img src=&/ae0c6cec83d63b14ab9d4_b.jpg& data-rawwidth=&934& data-rawheight=&557& class=&origin_image zh-lightbox-thumb& width=&934& data-original=&/ae0c6cec83d63b14ab9d4_r.jpg&&&br&&b&首先在PC端:&/b&&br&登录&a href=&///?target=http%3A//& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&,用微博登录,同时绑定腾讯微博、人人、Qzone;&br&登录后针对首页推荐的所有新闻,凡是非科技类的新闻全部点“不感兴趣”,大概拉3~4屏,点完后,刷新首页。&br&每次刷新后,同样针对非科技类的点“不感兴趣”&br&重复3次,每次刷后推荐过来的新闻仍然是社会类居多,科技类新闻占比没有提高,至少数出来是这样&br&&img src=&/17cd2376d25eebc57edec9db67451c86_b.jpg& data-rawwidth=&749& data-rawheight=&591& class=&origin_image zh-lightbox-thumb& width=&749& data-original=&/17cd2376d25eebc57edec9db67451c86_r.jpg&&&b&其次在移动端:&/b&&br&iphone4s,下载后登录(之前PC测试时已注册,见上,同一账号)&br&登录后针对首页推荐的新闻,和PC端时一样筛选,非科技类的一律点“不感兴趣”,上拉1~2屏,点完后,下拉刷新首页&br&和PC端操作同,刷新后非科技类一律点“不感兴趣”&br&移动端重复次数也是3次(好像是4次,忘了),和PC端同,仍然是社会类居多,科技类占比没有提高&br&&img src=&/b5b27c937782ffae8dc4db_b.jpg& data-rawwidth=&640& data-rawheight=&960& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/b5b27c937782ffae8dc4db_r.jpg&&&br&注:测试的是首页,不是点进某个频道页(比如历史频道当然没有科技类新闻,测试用户表示没这么白)&br&&br&但是针对&b&大多数小白用户&/b&来说,社会、明星、游戏等新闻的推荐是不会明显感觉有问题的,因为这些新闻经过编辑的,大多用户平时看的也就是这些内容!!!&br&&br&------------------------个人猜测的分割线----------------------&br&并没有什么个性推荐&br&推的内容就是大多数用户平时看的内容&br&但内容是经过编辑精选,只是筛选+编辑&br&推送规则,随机;但针对同一用户,已推过的不会再推&br&&br&所以看上去是个性化,实际只是给每个人随机推荐经过筛选的新闻而已,没有个性化。
根本就不是个性化推荐!!! 以上是结论,下面说自己无聊而做的测试: 今日头条在appstore上宣称5s算出兴趣,如下图: 首先在PC端: 登录,用微博登录,同时绑定腾讯微博、人人、Qzone; 登录后针对首页推荐的所有新闻,凡是非科技类的…
有个词叫做“&b&信息茧房&/b&”,是指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。由于信息技术提供了更自我的思想空间和任何领域的巨量知识,一些人还可能进一步逃避社会中的种种矛盾,成为与世隔绝的孤立者。在社群内的交流更加高效的同时,社群之间的沟通并不见得一定会比信息匮乏的时代来得顺畅和有效。 &br&新闻客户端、圈子等的内容个性化推送功能,某种意义上来说的确就是在“做茧”。&br&与其思考是否会让自己视野狭隘,有人提出过一个更有意思的话题——这是否进一步为“择偶”增加了难度?或者进一步提高了“离婚率”?&br&因为传统观念认为,到了一定的年龄就该找个人结婚,“感情可以慢慢培养”。但是,现在即使两个人在一起做相同的事,哪怕上同一个网站,用同一个APP,甚至搜索同样的关键词,看到的信息都是不一样的。如果婚前没有统一的世界观和价值观以及相似的兴趣爱好,即使生活在一起,随着时间的推移,反而会渐行渐远。所以,拜其所赐,寻找自己真正的Soul mate比适时结婚更加重要,不然,结果很可能是悲剧的。。&br&&br&以上我是我心平气和地开导我妈用的。我妈只回我三个字:你放屁!
有个词叫做“信息茧房”,是指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。由于信息技术提供了更自我的思想空间和任何领域的巨量知识,一些人还可能进一步逃避社会中的种种矛盾,成为与世隔绝的孤立…
我更看好网易新闻
我更看好网易新闻
数据层面,是非常明确的。&br&列表流的人均阅读数量、用户在推荐流的使用时长、点击率,这些是推荐的关键性指标。&br&这些指标是产品的核心指标,说也没啥意思。&br&&br&搜索力求覆盖全、时效高、相关性好。纯搜索结果的数据分析也比较简单,选取样本率较高的query,然后从相关性、时效性以及满意程度三个指标做分析就好了。&br&&br&个性化推荐内容的纬度比搜索更麻烦点。&br&&br&1. 用户层面区分:&br&你需要把用户按照用户模型成熟程度做一次区分:冷启动用户、发展期用户、成熟期用户;&br&针对不同阶段的用户,用不同的评价指标进行分析。就像query针对搜索结果一样,不同阶段的用户集的推荐结果,会形成一个聚合指标。&br&&br&2. 主动行为影响:&br&推荐系统中,会有很多指标会影响到用户的个性化流:比如主动检索、比如频道切换、比如点选『不感兴趣』等...&br&&br&需要评估主动行为下,对于原有用户模型的影响,影响程度如何。&br&&br&3. 被动用户模型构建&br&被动的用户模型,往往是CTR的效果,CTR作用在用户模型建构上,这种影响的分数力度的改变等等。&br&&br&——————————————&br&人在策略调优评估上的作用,主要是变更相关性的评估(打散性分析)、策略准确性的评估(主被动行为对模型的影响力度)和推荐建库遴选出结果的优质性评估。&br&&br&实际上,不管是搜索还是推荐,都会尝试A/B test实验,分出小流量用户进行策略评估,如果策略有正向影响,那么可以认为这个可以推而广之。&br&——————————————&br&&br&以上....同时庆幸下自己从策略端跳坑到前端,从每天看数据调效果到现在每天画图整交互。
数据层面,是非常明确的。 列表流的人均阅读数量、用户在推荐流的使用时长、点击率,这些是推荐的关键性指标。 这些指标是产品的核心指标,说也没啥意思。 搜索力求覆盖全、时效高、相关性好。纯搜索结果的数据分析也比较简单,选取样本率较高的query,然后…
不邀自来。看到题主这个问题,刚好和我现在的状况一样。&br&目前是一个个性化推荐项目的负责人,主要是负责推荐算法的,小组内有专门的产品经理,但是现在是由数据和技术来驱动的。&br&在整个推荐的流程中,主要是会涉及四部分的人员,算法开发,前端的开发,后端服务端的开发(也就是算法部署到线上提供接口服务),产品。&br&其实,在最开始的时候,我们的推荐是由产品来驱动的。由产品提需求,然后我们数据计算中心计算提供数据,然后部署到线上,从数据生成到产品上线,都是由产品来驱动,数据计算中心只是按照需求提供相应的需求。&br&这种模式持续了好几年,而结果就是推荐没什么起色。不能说没有进步,但是与竞品相比,确是在这方面落后得太多太多。像推荐这类技术偏向性很强的项目,除非产品负责人能够很懂技术,不然的话确实会暴露很多问题。&br&1.对数据和算法的重视程度,在过去数年的推荐发展过程中,a/btest,快速反馈系统没有建立起来;&br&2.项目的总体方向以及架构未能清晰。&br&3.对推荐系统的评价标准,产品主导往往有点拍脑袋,一时要使用时长,一时要新鲜度。标准多变。&br&4.产品和技术的沟通等等&br&&br&在去年年底的时候,公司技术负责人开始转变模式,将项目由产品主导改成技术主导。推进模式改成,由技术负责人来定具体的kpi,梳理架构;在日常中,由技术负责人确定方案,以及算法和后端服务端的所有事宜;由产品来主导前端的事宜,技术负责人跟进相应的进度。&br&&br&与之前相比,1.算法版本迭代速度加快,注重a/btest思想;2.目标清晰;3.算法和技术驱动&br&&br&个人感觉的话,如果是产品主导的话,产品负责人需要能够非常重视技术和数据,而且对这类算法有较深刻的理解。
不邀自来。看到题主这个问题,刚好和我现在的状况一样。 目前是一个个性化推荐项目的负责人,主要是负责推荐算法的,小组内有专门的产品经理,但是现在是由数据和技术来驱动的。 在整个推荐的流程中,主要是会涉及四部分的人员,算法开发,前端的开发,后端…
「个性化阅读」这个口号本身就很傻,把这种口号当真的人更傻。&br&除去某些功利的目的,所有的阅读本身就是个性化的。除非一个人没有自由思想,否则他怎么可能不「个性化」阅读?
「个性化阅读」这个口号本身就很傻,把这种口号当真的人更傻。 除去某些功利的目的,所有的阅读本身就是个性化的。除非一个人没有自由思想,否则他怎么可能不「个性化」阅读?
为了简单,只讨论一下分类的情况。&br&算法很难比较说谁更强,而是谁更适应业务场景。&br&主要是特征数量、训练过程、可解释性上面有很大的差异。&br&SVM 能够训练大量(上万的词)特征,不用考虑特征离散化或者分段,非线性映射可以很好的分类。&br&GBDT在特征较少的时候(200以内),能够高效bootstrap 抽取样本和特征,训练多颗树。能够自动做特征重要性排序,通过gini系数等指标判断分割点。能够表达非常复杂的规则。
为了简单,只讨论一下分类的情况。 算法很难比较说谁更强,而是谁更适应业务场景。 主要是特征数量、训练过程、可解释性上面有很大的差异。 SVM 能够训练大量(上万的词)特征,不用考虑特征离散化或者分段,非线性映射可以很好的分类。 GBDT在特征较少的时…
我来个从理论到实践的书系吧:&br&偏理论的:《数据挖掘导论》《数据挖掘:概念与技术》(原书第3版)《神经网络与机器学习》(原书第3版)《Web数据挖掘》&br&偏实践:《智能web算法》《集体智慧编程》《Collective Intelligence实战》;今年出的《推荐系统实践》这本算是又贴近实践有比较通俗易懂一点。&br&其实可以推荐一部老外的从理论到实践高覆盖面的专著《Recommender Systems Handbook》,这个书目前没有中文版,电子版很好找。还有很多更深入的、或者擦边用得着的就不详细说了,就说一点:数学要学好。
我来个从理论到实践的书系吧: 偏理论的:《数据挖掘导论》《数据挖掘:概念与技术》(原书第3版)《神经网络与机器学习》(原书第3版)《Web数据挖掘》 偏实践:《智能web算法》《集体智慧编程》《Collective Intelligence实战》;今年出的《推荐系统实践》…
微博可能存在两种使用状态, 后面的讨论都是依赖于这个假设:&blockquote&可以把微博的页面当做一个双向的队列, 一个口是底部的&更多&, 一个口是顶部的&刷新&. 当用到&更多&时, 用户是在探索过去. 当用到&刷新&时, 是在关注现在. 后一种重要性更高.&/blockquote&&ol&&li&&更多&/&之前发生了什么&: 一个时间段内积累了一定量的信息, 比如每天首次登陆时, 积累了上次离开后的信息.&/li&&li&&刷新&/&现在正在发生什么&: 已经是在线状态, 等待最新的信息更新. &/li&&/ol&对于状态1, 按照普通用户关注的信息量, 信息过载的情况是存在的. &br&对于状态2, 依赖于用户的关注数量.关注1000+的人, 可能也存在信息过载(假如这种用户还在看微博). 对于普通的用户而言, 这部分数据有限, 不存在信息过载. 甚至还有饥渴的情况存在.&br&&br&之前我瞎猜过新浪微博&兴趣&的rank方法: &a href=&/question/& class=&internal&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/question/1965&/span&&span class=&invisible&&6766&/span&&span class=&ellipsis&&&/span&&/a& &br&但目前新浪微博&时间&这个因子在&兴趣&排序中的作用很弱. 只能向&过去&这个时间方向上流动, &现在&这个方向上几乎没有变化. 这可能是目前&兴趣&没人用的最大问题.&br&因为对于状态1, &兴趣&排序是有用的, 用户可能会花一些时间顺着&更多&这个方向阅读信息;但用户会马上将兴趣转移到状态2. 这时&兴趣&排序不仅没用了, 而且还增加了信息饥渴的程度.&br&从产品角度看, 只有出现&信息过载&时, 使用&兴趣&排序才是有用的, 同时还需要兼顾&更新&这个重要的信息更新方向不受影响. 基于此, 再瞎猜一个解决方案 ---- 时间窗口内的&兴趣&排序:&blockquote&基本思想是, 在用户两次&刷新&动作之间, 作为一个&时间窗口&, 针对落在这个时间片内的结果做&兴趣&排序.&/blockquote&本质上是将时间变成一个重要性很高的离散值, 加入到&兴趣&排序函数当中.&ul&&li&对于状态1, 时间窗口是上次离开时间到本次登录时间, 用户每次登陆进来, 展现的是这个时间段内的兴趣排序. &/li&&li&对于状态2, 每次用户点击&有新微博&时, 时间窗口是上次更新到现在. 对于普通用户而言, 这个窗口内的信息数量不多, 全部能看完, 帮助不太大. 对于关注过多的用户, 这部分有一定作用.&/li&&/ul&这样&兴趣&排序自然就融入到Timeline当中了.
微博可能存在两种使用状态, 后面的讨论都是依赖于这个假设:可以把微博的页面当做一个双向的队列, 一个口是底部的"更多", 一个口是顶部的"刷新". 当用到"更多"时, 用户是在探索过去. 当用到"刷新"时, 是在关注现在. 后一种重要性更高."更多"/"之前发生了什么…
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 自流平地面做法视频 的文章

 

随机推荐