如何衡量推荐系统的好坏?

访客4年前黑客文章726

编辑导语:如今推荐系统无处不在,你收到的推送、看到的推荐等等都是通过推荐系统举办推送;一个好的推荐系统可以让三方共赢,那如何来权衡推荐系统的优劣?本文作者从“做的好欠好”和“还能许多几何久”两方面举办阐明,我们一起来看一下。

如何权衡推荐系统的优劣?

上篇文章从非技能的角度写了一些推荐系统相关的理论常识,没看过的可以先去回首下前情概要《一文带你把握推荐系统》。

上篇文章有部门内容是关于推荐系统数据指标的,其时主要是从《推荐系统实践》那本书里直接搬运过来的,没有具体展开,所以就再补一篇如何权衡推荐系统优劣的文章。

之前我们提到推荐系统存在有一个很是重要的前提,那就是信息过载——我们想做的工作是在满意用户本性化需求的基本上,充实挖掘长尾资源,晋升整体资源操作效率。

假如把整体资源看作待开采的宝藏,那推荐系统就可以看作是矿机,要做的工作就是不绝的挖掘宝藏,发挥宝藏应有的代价。

从这个角度来看,权衡推荐系统做的好欠好可以从两方面来评估:

一方面是推荐系统自己做的好欠好,开采效率高不高;

另一方面就是推荐系统还能许多几何久,究竟宝藏的开采也是需要恒久可一连成长的。

下面我们别离从做的好欠好与还能许多几何久这两个角度来看下如何权衡推荐系统的优劣。

一、做的好欠好

可以从深度和广度这两个维度来举办评估。

先来看深度,主要是权衡推荐系统的功效,凡是会有评分精确度、分类精确率、排序指标和贸易指标等。

1. 评分精确度

在接头这个指标之前,先来说下另一个问题。

推荐系统的预测一般分为两种,一种是评分预测,一种是行为预测。

评分预测是按照用户以往对物品的打分环境,预测用户对新物品的打分;好比用户A之前看过3部影戏,这时候想给用户推荐别的一部影戏,评分预测就是预测用户A对这部影戏大概的打分。

行为预测指的是直接预测行为自己产生的概率,好比用户有多大大概性发生点击、购置可能点赞、分享操纵。

评分精确度是为了评估评分预测是否精准的指标,整体的思路是计较预测值和真实值之间的误差,然后把误差尽大概节制在可接管范畴之内。

凡是环境下会用均方根误差(RMSE)、均方误差(MSE)、平均绝对误差(MAE)来权衡。

详细计较 *** 不赘述,感乐趣的可以自行相识下。

2. 分类精确率

主要是针对行为预测的,一般用TopN的精确率和召回率来举办权衡。

召回率:但愿包围的案例中,实际被包围的有几多好比想从1万条新闻中识别所有的军事类新闻,召回率为80%意味着只识别出来了8000条新闻。

精确率:计策包围的案例中,真正但愿被包围的有几多;从1万条新闻中识别出100条军事类新闻,精确率为80%意味着只识别出来了80条军事新闻。

召回率和精确率是彼此抵牾的,召回率高,精确率大概会低,精确度高,召回率大概会低;需要团结产物阶段和优化方针去找一个符合的均衡点。

3. 排序指标

凡是回收AUC值, AUC值在数学上等价于模子把体贴的那一类样本排在其他样本前面的概率。

更大是1,完美功效,0.5就是随机分列,0就是完美地全部排错,最差的是靠近0.5。

另外还可以通过方针值和AB测试来举办权衡,好例如针值是逗留时长,那就用逗留时长的巨细来举办权衡,线上情况可以通过差异的流量比拟结果。

4. 贸易指标

主要就是我们期望晋升的一些方针值,好比:

比例类:点击率、转化率、留存率、完播率等;

绝对值类:用户逗留时长、GMV(成交金额)、社交干系数量等。

再来看广度,凡是会有包围率、失效率、新颖性、更新率、风行度等。

5. 包围率

主要指的是推荐系统在几多用户身上乐成运用了,好比总共有100W用户,A计策包围用户数量是10W,那包围率就是10%。

凡是环境包围率为UV包围率可能PV包围率:

UV包围率:有效推荐包围UV/总UV。

PV包围率:包围PV/总PV。

6. 失效率

主要是权衡不出推荐功效的环境,好比计策A包围了10W用户,有1W用户是没有推荐功效的,那对应的失效率就是10%。

失效率也分为UV失效率和PV失效率:

UV失效率:推荐功效列表长度为0包围的UV/整体UV。

PV失效率:推荐功效列表长度为0包围的PV/整体PV。

7. 新颖性和惊喜性

直观上的领略就是用户没见过(新颖),更好还能是用户感乐趣可能喜欢的(惊喜)。

这个时候需要把维度不绝的细化,好比细化到主题、分类、标签等,然后再权衡每个维度上用户没见过物品的比例。

8. 更新率

主要是权衡每个推荐周期和上个周期对比,推荐列表中差异物品的比例。

相关文章

你说,产品经理该如何思考?

你说,产品经理该如何思考?

编辑导读:产物司理是一个需要与时俱进的职业,因此就要具备思考的本领。可是,思考的偏向差异,角度差异城市影响到我们的干事要领。本文作者基于自身事情履历,对产物司理如何思考这个话题展开三方面的阐明,但愿对...

产品化拉新案例:跟谁学解锁裂变模型拆解及细节梳理

产品化拉新案例:跟谁学解锁裂变模型拆解及细节梳理

编辑导语:跟谁学,是海内以K-12为主的在线教诲机构,通过直播+向导的双师模式,提供小初高全科,以及语言、职业和乐趣教诲等课程。种种课程主讲老师严格登科尺度,优选拥有多年实操解说教研履历人才,最大限度...

为什么很多创业团队长不大?

为什么很多创业团队长不大?

编辑导语:想要创业乐成,不行缺少的就是一个团队,照旧一个优秀有组织的团队;那一个优秀的团队需要什么,率领者在教育团队时需要留意什么等等,都是需要思量在内的;本文作者具体阐明白“团队”的焦点,我们一起来...

网易云音乐的有限与越限

网易云音乐的有限与越限

编辑导语:就在前一段时间,网易云刚经验了群嘲“网抑云”之后,网易云又活泼在公共的视野里;可是有业内人士却发明白一些问题,网易云音乐的曲库扩展、衍出产物等都呈现了以西问题;本文作者就此展开阐明,我们一起...

面试题解答:作为产品经理该如何向老人解释YY live是什么?

面试题解答:作为产品经理该如何向老人解释YY live是什么?

YY live——相信做产品的你一定知道,但是该如何向老年人解释这一事物?这篇文章教你如何来解答这一问题。 关于这个问题,笔者认为:面试者如能很清楚的将 YY live介绍给老年人,就达到了面试官的...

解答字节跳动产品面试题:如何设计积分抽奖?

解答字节跳动产品面试题:如何设计积分抽奖?

字节跳动产品经理面试题:一个积分抽奖,1000积分抽一次,抽奖可得积分、VIP会员、实体书等,需要让大家积极抽奖、获奖相对公平且公司不会亏,你会怎么设计? 校友会的师妹问我怎么回答这道题,这里也和大...