第一章:好的推荐系统
本章概述
- 什么是好的推荐系统、推荐系统的主要任务、推荐系统和分类目录以及搜索引擎的区别等;
- 按照不同领域分门别类地介绍目前业界常见的个性化推荐应用;
- 推荐系统的评测,通过介绍评测指标给出“好”的定义,从而解答“什么是好的推荐系统”这个问题;
推荐系统的任务
联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。分类目录
著名代表:雅虎;目录将著名的网站分门别类,从而方面用户根据类别查找网站。但是随着互联网规模的不断扩大,分类目录也只能覆盖少量的热门网站,越来越不能满足用户的需求。
搜索引擎
著名代表:谷歌;可以让用户通过搜索关键词找到自己需要的信息。但搜索引擎需要用户主动提供精确的关键词来寻找信息,因此不能解决用户的很多其他需求。
推荐系统
对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。与搜索引擎一样,推荐系统也是一种帮助用户快速发现有用信息的工具。和搜索引擎不同的是,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息。
- 弥补搜索引擎的缺点
- 发觉物品的长尾。
个性化推荐系统的应用
推荐系统的作用:分析大量用户行为日志,给不同的用户提供不同的个性化页面展示,来提高网站的点击率和转化率。广泛利用推荐系统的领域:电子商务、电影和视频、音乐、社交网络、阅读、基于位置的服务、个性化邮件和广告等。
推荐系统组成:前台页面、后台日志以及推荐算法三部分
1.电子商务
亚马逊案例研究包含3个部分:
- 推荐结果的标题、缩略图以及其他的内容属性
- 推荐结果的平均得分
- 推荐理由
- 加入购物车Add to Cart
- 加入到心愿单Add to Wish List
- 给产品打分Rate this item
- 我已经有这本书了I own it
- 对本产品不感兴趣Not Interested
推荐算法:item-based method基于物品的推荐算法 5种推荐类型
- Today's Recommendations For You
- Popular Among Your Friends on Facebook
- Customers Who Bought This Item Also Bought
- What Other Items Do Customers Buy After Viewing This?
- Frequently Bought Together
2.电影和视频网站
Netflix案例研究:2006年起开始举办著名的Netflix Prize推荐系统比赛。该比赛举办3年后,最终由AT&T的研究人员获得了最终的大奖。该比赛对推荐系统的发展起到了重要的推动作用:一方面该比赛给学术界提供了一个实际系统中的大规模用户行为数据集(40万用户对2万部电影的上亿条评分记录);另一方面,3年的比赛中,参赛者提出了很多推荐算法,大大降低了推荐系统的预测误差。此外,比赛吸引了很多优秀的科研人员加入到推荐系统的研究中来,大大提供了推荐系统在业界和学术界的影响力。
推荐展示:
电影标题和海报
用户反馈模块:
- Play(播放)
- 评分
- Not Interested(不感兴趣)
推荐算法:item-base method基于物品的推荐算法:即给用户推荐和他们曾经喜欢的电影相似的电影。
其他案例:YouTube,Hulu
3.个性化音乐网络电台
个性化推荐的成功应用需要两个条件:第一是信息过载;第二是大部分时候没有特别明确的需求;- 国际:Pandora和Last.fm
- 国内:豆瓣电台
Pandora和Last.fm案例研究
Pandora背后的音乐推荐算法主要来自一个叫音乐基因工程的项目。这个项目起始于2000年1月6号,它的成员包括音乐家和对音乐有兴趣的工程师。算法主要基于内容,其音乐家和研究人员亲自听了上万首来自不同歌手的歌,然后对歌曲的不同特性(比如旋律、节奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因。然后Pandora会根据专家标注的基因计算歌曲的相似度,并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。
和Pandora相比,Last.fm没有使用专家标注,而是主要利用用户行为计算歌曲的相似度。
音乐推荐是推荐系统里非常特殊的领域,特点如下:
- 物品空间大:相对于电影和图书
- 消费每首歌的代价很小
- 物品种类丰富
- 听一首歌耗时很少
- 物品重用率很高
- 用户充满激情
- 上下文相关:用户的口味受当时上下文(当时的心情、所处的情境)的影响。
- 次序很重要
- 很多播放列表资源
- 不需要用户全神贯注
- 高度社会化:分享音乐
4.社交网络
最近5年,互联网最激动人心的产品莫过于以Facebook和Twitter为代表的社交网络应用。在社交网络中,好友们可以互相分享、传播信息。社交网络的个性化推荐技术主要应用在3个方面:- 利用用户的社交网络信息对用户进行个性化的物品推荐;
- 信息流的会话推荐;(好友的各种分享,对分享进行评论)
- 给用户推荐好友;
Facebook开发了EdgeRank算法对会话进行排序,是用户能够尽量看到熟悉好友的最新会话。
5.个性化阅读
阅读文章是很多互联网用户每天都会做的事情。个性化阅读同样符合前面提出的需要个性化推荐的两个因素:首先,互联网上的文章非常多,用户面临信息过载的问题;其次,用户很多时候并没有必须看某篇具体文章的需求,他们只是想通过阅读特定领域的文章了解这些领域的动态。- 国际:Google Reader
- 国内:鲜果网
- 移动:Zite和Flipboard
6.基于位置的服务
推荐周围感兴趣的服务。用户可以去消费。基于位置的服务往往和社交结合在一起。比如Foursquare推出了搜索功能,给用户推荐好友在附近的行为。
7.个性化邮件
8.个性化广告
广告是互联网公司生存的根本。很多互联网公司的盈利模式都是基于广告的,而广告的CPC,CPM直接决定了很多互联网公司的收入。目前很多广告都是随机投放的,即每次用户来了,随机选择一个广告投放给他,这种投放的效率显然很低,比如给男性投放化妆品广告或给女性投放西装广告多半是一种浪费。因此,很多公司都致力于广告定向投放(Ad Targeting)的研究,即如何将广告投放给它的潜在客户群。个性化广告投放目前已经成为了一门独立的学科——计算广告学,但该学科和推荐系统在很多基础理论和方法上是想通的,比如它们的目的都是联系用户和物品,只是在个性化广告中,物品就是广告。个性化广告投放和狭义个性化推荐的区别,个性化推荐着重于帮助用户找到可能令他们感兴趣的物品,而广告推荐着重于帮助广告找到可能对他们感兴趣的用户,即一个是以用户为核心,而另一个以广告位核心。
个性化广告投放的3种技术:
- 上下文广告:Adsense,通过分析用户正在浏览的网页内容, 投放和网页内容相关的广告。
- 搜索广告:通过分析用户在当前会话中的搜索记录,判断用户的搜索目的,投放和用户目的相关的广告。
- 个性化展示:根据用户兴趣展示不同广告