如何衡量推荐系统的好坏?

访客4年前黑客文章747

编辑导语:如今推荐系统无处不在,你收到的推送、看到的推荐等等都是通过推荐系统举办推送;一个好的推荐系统可以让三方共赢,那如何来权衡推荐系统的优劣?本文作者从“做的好欠好”和“还能许多几何久”两方面举办阐明,我们一起来看一下。

如何权衡推荐系统的优劣?

上篇文章从非技能的角度写了一些推荐系统相关的理论常识,没看过的可以先去回首下前情概要《一文带你把握推荐系统》。

上篇文章有部门内容是关于推荐系统数据指标的,其时主要是从《推荐系统实践》那本书里直接搬运过来的,没有具体展开,所以就再补一篇如何权衡推荐系统优劣的文章。

之前我们提到推荐系统存在有一个很是重要的前提,那就是信息过载——我们想做的工作是在满意用户本性化需求的基本上,充实挖掘长尾资源,晋升整体资源操作效率。

假如把整体资源看作待开采的宝藏,那推荐系统就可以看作是矿机,要做的工作就是不绝的挖掘宝藏,发挥宝藏应有的代价。

从这个角度来看,权衡推荐系统做的好欠好可以从两方面来评估:

一方面是推荐系统自己做的好欠好,开采效率高不高;

另一方面就是推荐系统还能许多几何久,究竟宝藏的开采也是需要恒久可一连成长的。

下面我们别离从做的好欠好与还能许多几何久这两个角度来看下如何权衡推荐系统的优劣。

一、做的好欠好

可以从深度和广度这两个维度来举办评估。

先来看深度,主要是权衡推荐系统的功效,凡是会有评分精确度、分类精确率、排序指标和贸易指标等。

1. 评分精确度

在接头这个指标之前,先来说下另一个问题。

推荐系统的预测一般分为两种,一种是评分预测,一种是行为预测。

评分预测是按照用户以往对物品的打分环境,预测用户对新物品的打分;好比用户A之前看过3部影戏,这时候想给用户推荐别的一部影戏,评分预测就是预测用户A对这部影戏大概的打分。

行为预测指的是直接预测行为自己产生的概率,好比用户有多大大概性发生点击、购置可能点赞、分享操纵。

评分精确度是为了评估评分预测是否精准的指标,整体的思路是计较预测值和真实值之间的误差,然后把误差尽大概节制在可接管范畴之内。

凡是环境下会用均方根误差(RMSE)、均方误差(MSE)、平均绝对误差(MAE)来权衡。

详细计较 *** 不赘述,感乐趣的可以自行相识下。

2. 分类精确率

主要是针对行为预测的,一般用TopN的精确率和召回率来举办权衡。

召回率:但愿包围的案例中,实际被包围的有几多好比想从1万条新闻中识别所有的军事类新闻,召回率为80%意味着只识别出来了8000条新闻。

精确率:计策包围的案例中,真正但愿被包围的有几多;从1万条新闻中识别出100条军事类新闻,精确率为80%意味着只识别出来了80条军事新闻。

召回率和精确率是彼此抵牾的,召回率高,精确率大概会低,精确度高,召回率大概会低;需要团结产物阶段和优化方针去找一个符合的均衡点。

3. 排序指标

凡是回收AUC值, AUC值在数学上等价于模子把体贴的那一类样本排在其他样本前面的概率。

更大是1,完美功效,0.5就是随机分列,0就是完美地全部排错,最差的是靠近0.5。

另外还可以通过方针值和AB测试来举办权衡,好例如针值是逗留时长,那就用逗留时长的巨细来举办权衡,线上情况可以通过差异的流量比拟结果。

4. 贸易指标

主要就是我们期望晋升的一些方针值,好比:

比例类:点击率、转化率、留存率、完播率等;

绝对值类:用户逗留时长、GMV(成交金额)、社交干系数量等。

再来看广度,凡是会有包围率、失效率、新颖性、更新率、风行度等。

5. 包围率

主要指的是推荐系统在几多用户身上乐成运用了,好比总共有100W用户,A计策包围用户数量是10W,那包围率就是10%。

凡是环境包围率为UV包围率可能PV包围率:

UV包围率:有效推荐包围UV/总UV。

PV包围率:包围PV/总PV。

6. 失效率

主要是权衡不出推荐功效的环境,好比计策A包围了10W用户,有1W用户是没有推荐功效的,那对应的失效率就是10%。

失效率也分为UV失效率和PV失效率:

UV失效率:推荐功效列表长度为0包围的UV/整体UV。

PV失效率:推荐功效列表长度为0包围的PV/整体PV。

7. 新颖性和惊喜性

直观上的领略就是用户没见过(新颖),更好还能是用户感乐趣可能喜欢的(惊喜)。

这个时候需要把维度不绝的细化,好比细化到主题、分类、标签等,然后再权衡每个维度上用户没见过物品的比例。

8. 更新率

主要是权衡每个推荐周期和上个周期对比,推荐列表中差异物品的比例。

相关文章

从元气森林、钟薛高、茶π……看新消费品牌的4种增长策略

从元气森林、钟薛高、茶π……看新消费品牌的4种增长策略

编辑导读:元気丛林、钟薛高、茶π,这些新消费品牌是如安在这两年内发作的?他们为何能快速得到乐成?文章环绕这些问题,对新消费品牌发作背后的增长计策展开了梳理阐明,与各人分享。 元气丛林、钟薛高这些快消...

为什么3,4年了,电商平台还没有孵化出一个小红书?

为什么3,4年了,电商平台还没有孵化出一个小红书?

编辑导读:小红书自2013年创建至今已经7年,尽量业务局限无法与阿里、拼多多这类电商巨头抗衡,可是它却代表了电商财富一种将来偏向,让“种草”成为了一种贸易模式。许多电商平台都看中了小红书的贸易模式,但...

优惠券背后的营销策略分析

优惠券背后的营销策略分析

编辑导读:优惠券作为营销的一个常用手段,好像人们对它已经司空见惯。相识优惠券背后的本质和道理,才气更好地操作其完成精准的定向营销。本文将从五个方面举办阐明,但愿对你有辅佐。 优惠券是营销计策傍边的一...

Axure教程:这几个小技巧你一定要知道

Axure教程:这几个小技巧你一定要知道

编辑导读:Axure是产物司理在事情中最常用到的软件之一,尽量它的利用范畴很是遍及,可是有一些小能力许多人并不知道。本文作者总结了Axure在利用中的一些小能力,与你分享。 一、Axure建造页面,...

都是写需求,高手和菜鸟为何差别这么大?

都是写需求,高手和菜鸟为何差别这么大?

无论是互联网产物照旧产物项目,所有这一切的初步都始于需求阐明,一份好的需求文档往往是项目乐成的先决条件,对一个产物司理或项目司理来说就显得尤为重要。可是,同样是写需求,差异的人写出来结果却截然差异。对...

如何判断一个产品需求的价值?

如何判断一个产品需求的价值?

每个产物都至少有一个焦点需求来办理用户某方面的需求,焦点需求的代价越大产物存在的代价也就越大,能投入的资源也就越多。产物司理必需首先确定产物的焦点需求,然后环绕这个焦点需求确定其非焦点需求,非焦点需...