大部分的推荐系统都采用推荐预测的准确度衡量推荐算法的优劣,目前使用较多的准确度指标有预测准确度、分类准确度和排序准确度,辅助评价指标如流行性、多样性等。
预测准确度
主要思想:将推荐系统产生的预测评分与用户真实评分进行相似度匹配。
经典方法:平均绝对误差(MAE)
分类准确度
用于判断一个用户对推荐系统的对象是否满意的比例,不关心算法评分正确与否。
常用指标:准确率、召回率、F指标。
准确率:反映用户喜欢被推荐物品的程度
召回率:反映推荐物品覆盖用户喜欢物品的程度。
比如,我们给用户推荐5个物品REC{a,s,d,f,g},用户实际喜欢的是T{c,d,v,f},那么推荐的评测指标就是,推荐的物品是不是用户喜欢的?所占比例是多少?
REC与T的交集是{d,f},占所推荐5个物品的40%,占用户喜欢物品的50%,因此准确率就是40%,召回率就是50%。
一般推荐的东西越多,越可能覆盖用户喜欢的物品,召回率会提高,但牺牲了准确率,因此要平衡二者的关系,如F准则.
在搜索方面,要保证召回率,提高准确率;在反垃圾、疾病监测方面,要保证准确率,提高召回率。
F准则
排列准确度
用来衡量运行推荐算法后,预测系统生成的对象推荐表满足用户对资源对象实际排序的能力,
适用场合:需要评价给目标用户推荐一个排序列表的系统
度量方法:平均排序分,排序分越小说明系统趋向于把用户喜欢的产品排在前面。平均排序分越小越精确。