如何衡量推荐系统的好坏?

访客4年前黑客文章730

编辑导语:如今推荐系统无处不在,你收到的推送、看到的推荐等等都是通过推荐系统举办推送;一个好的推荐系统可以让三方共赢,那如何来权衡推荐系统的优劣?本文作者从“做的好欠好”和“还能许多几何久”两方面举办阐明,我们一起来看一下。

如何权衡推荐系统的优劣?

上篇文章从非技能的角度写了一些推荐系统相关的理论常识,没看过的可以先去回首下前情概要《一文带你把握推荐系统》。

上篇文章有部门内容是关于推荐系统数据指标的,其时主要是从《推荐系统实践》那本书里直接搬运过来的,没有具体展开,所以就再补一篇如何权衡推荐系统优劣的文章。

之前我们提到推荐系统存在有一个很是重要的前提,那就是信息过载——我们想做的工作是在满意用户本性化需求的基本上,充实挖掘长尾资源,晋升整体资源操作效率。

假如把整体资源看作待开采的宝藏,那推荐系统就可以看作是矿机,要做的工作就是不绝的挖掘宝藏,发挥宝藏应有的代价。

从这个角度来看,权衡推荐系统做的好欠好可以从两方面来评估:

一方面是推荐系统自己做的好欠好,开采效率高不高;

另一方面就是推荐系统还能许多几何久,究竟宝藏的开采也是需要恒久可一连成长的。

下面我们别离从做的好欠好与还能许多几何久这两个角度来看下如何权衡推荐系统的优劣。

一、做的好欠好

可以从深度和广度这两个维度来举办评估。

先来看深度,主要是权衡推荐系统的功效,凡是会有评分精确度、分类精确率、排序指标和贸易指标等。

1. 评分精确度

在接头这个指标之前,先来说下另一个问题。

推荐系统的预测一般分为两种,一种是评分预测,一种是行为预测。

评分预测是按照用户以往对物品的打分环境,预测用户对新物品的打分;好比用户A之前看过3部影戏,这时候想给用户推荐别的一部影戏,评分预测就是预测用户A对这部影戏大概的打分。

行为预测指的是直接预测行为自己产生的概率,好比用户有多大大概性发生点击、购置可能点赞、分享操纵。

评分精确度是为了评估评分预测是否精准的指标,整体的思路是计较预测值和真实值之间的误差,然后把误差尽大概节制在可接管范畴之内。

凡是环境下会用均方根误差(RMSE)、均方误差(MSE)、平均绝对误差(MAE)来权衡。

详细计较 *** 不赘述,感乐趣的可以自行相识下。

2. 分类精确率

主要是针对行为预测的,一般用TopN的精确率和召回率来举办权衡。

召回率:但愿包围的案例中,实际被包围的有几多好比想从1万条新闻中识别所有的军事类新闻,召回率为80%意味着只识别出来了8000条新闻。

精确率:计策包围的案例中,真正但愿被包围的有几多;从1万条新闻中识别出100条军事类新闻,精确率为80%意味着只识别出来了80条军事新闻。

召回率和精确率是彼此抵牾的,召回率高,精确率大概会低,精确度高,召回率大概会低;需要团结产物阶段和优化方针去找一个符合的均衡点。

3. 排序指标

凡是回收AUC值, AUC值在数学上等价于模子把体贴的那一类样本排在其他样本前面的概率。

更大是1,完美功效,0.5就是随机分列,0就是完美地全部排错,最差的是靠近0.5。

另外还可以通过方针值和AB测试来举办权衡,好例如针值是逗留时长,那就用逗留时长的巨细来举办权衡,线上情况可以通过差异的流量比拟结果。

4. 贸易指标

主要就是我们期望晋升的一些方针值,好比:

比例类:点击率、转化率、留存率、完播率等;

绝对值类:用户逗留时长、GMV(成交金额)、社交干系数量等。

再来看广度,凡是会有包围率、失效率、新颖性、更新率、风行度等。

5. 包围率

主要指的是推荐系统在几多用户身上乐成运用了,好比总共有100W用户,A计策包围用户数量是10W,那包围率就是10%。

凡是环境包围率为UV包围率可能PV包围率:

UV包围率:有效推荐包围UV/总UV。

PV包围率:包围PV/总PV。

6. 失效率

主要是权衡不出推荐功效的环境,好比计策A包围了10W用户,有1W用户是没有推荐功效的,那对应的失效率就是10%。

失效率也分为UV失效率和PV失效率:

UV失效率:推荐功效列表长度为0包围的UV/整体UV。

PV失效率:推荐功效列表长度为0包围的PV/整体PV。

7. 新颖性和惊喜性

直观上的领略就是用户没见过(新颖),更好还能是用户感乐趣可能喜欢的(惊喜)。

这个时候需要把维度不绝的细化,好比细化到主题、分类、标签等,然后再权衡每个维度上用户没见过物品的比例。

8. 更新率

主要是权衡每个推荐周期和上个周期对比,推荐列表中差异物品的比例。

相关文章

基于“亲密度金字塔结构”,从大B甲方视角看SAAS企业如何做招投标?

基于“亲密度金字塔结构”,从大B甲方视角看SAAS企业如何做招投标?

编辑导读:本文作者从自身事情履历出发,依据项目实践中的所思所想,团结案例平分享了基于亲密度金字塔布局,大B甲方招投标事情的流程和需要留意的一些问题,供各人一同参考和进修。 本人在大B甲方从业过,也招...

行业案例 | 硬件类产品生态流量池加固法则

行业案例 | 硬件类产品生态流量池加固法则

陪伴着互联网技能渗透到社会成长的各个层面,计较机网络技能、信息技能等也乐成地渗透到康健行业。在互联网+的配景下,康健财富迎来了新的机会,催生了新的成长模式。 种种举动康健APP应运而生,为人们提供了...

大力教育为何能成字节跳动首个独立品牌?

大力教育为何能成字节跳动首个独立品牌?

编辑导语:“我的脑壳里蹦出两个字——大力大举,大力大举出古迹嘛。对每一个家庭而言,教诲就是一个孕育古迹的处所。”10月底,字节跳动公布启用全新教诲品牌“大力大举教诲”,以上是CEO陈林对“大力大举教诲...

2020年9月中国旅游行业网络关注度分析报告

2020年9月中国旅游行业网络关注度分析报告

编辑导语:由于上半年疫情的原因,各人都憋在家里很长一段时间,在九月和十月这个阶段,疫情的和缓也给旅游业带来新的苏醒;如今我们想去那边旅游,大部门会在网络长举办信息的查找;本文是作者分享的关于中国旅游行...

汽车数字化营销平台(9):线索派发与分配,小心违规!

汽车数字化营销平台(9):线索派发与分配,小心违规!

全渠道接入的线索高效的从品牌商转到一线的销售参谋,需要良性机制保障,更不能违规。本文将重点说明线索的派发和分派业务,供各人参考。 主机厂的线索经清洗后,凭据法则从主机厂到销售参谋,是两个环节:主机厂...

抖音和微博:两种不同的@人方案

抖音和微博:两种不同的@人方案

编辑导语:对付@成果,各人必然都不生疏。许多软件都有这个成果,利便我们看到感乐趣的内容时,让其他人也来看。于是,在微博上我们看到可笑的段子常常会@挚友;在抖音上刷到好玩的视频,也会@挚友。本日这篇文章...