万字长文读懂微信“看一看”内容理解与推荐

访客4年前黑客工具1112

编辑导读:用户通过微信看一看可以获取到更富厚的资讯,有利于冲破信息茧房。那么,微信看一看是怎么做到的呢?本文将从内容领略与推荐角度出发,举办深入的阐明,但愿对你有辅佐。

万字长文读懂微信“看一看”内容领略与推荐

一、内容领略与推荐

相信对付不少人而言微信已经成为获取资讯的主要场景。与此同时,由于微信用户群体的复杂,也吸引了大量的内容出产者在微信公家平台缔造内容,以获取用户存眷、点赞、保藏等。微信内的内容推荐产物:看一看应运而生。

团结微信用户的内容消费需求,以业务方针为导向,我们的推荐系统从基于属性召回、到协同&社交召回、再到深度模子召回举办了演进,深度模子涵盖了序列模子、双塔模子、殽杂模子、图模子,最终形成了多种召回并列、多路模子配合浸染的看一看内容召回系统。

假如把推荐系统中工程处事比作骨骼,那么推荐模子可以比作肌肉,还需要内容领略作为血液,纵向贯串整个推荐系统,从内容库、到召回、再到排序和画像,绵绵不断的晋升系统的推荐精度,本文将着重先容看一看内容领略平台及应用。

看一看接入了很是多相助方的数据作为内容源。由于接入数据源较多,各家数据从内容、质量、品类等差别性较量大。看一看平台方会对数据做“归一化”操纵,然后应用于推荐系统线上部门。

内容领略界说:对接各类外部图文等内容,对接入内容做业务级内容多维基能力略,同时举办外部标签与自有标签体系对齐,完成应用级内容打标。

反馈至下游应用方:用户需求系统,召回计策,召回模子,排序/混排等利用;同时,在业务数据转动与迭代中批改数据刻画精度与结果,慢慢贴合与晋升业务线结果。

我们将内容画像界说为两个大维度:通过内容自己来领略内容,通过行为反馈来领略内容。前者主要针对内容抽取静态属性标签。后者,通过行为积聚的后验数据、统计、或模子预估内容的常识、倾向性、投放方针以及抽象表达。

万字长文读懂微信“看一看”内容领略与推荐

内容画像界说

内容领略主要包罗文能力略、多媒体领略、内容倾向性、投放方针预估,主要应用在内容试探效率晋升,推荐分发模子的特征泛化,多场景的内容库构建,推荐相关性召回和语义排序以及封面图优选创意,旨在晋升精选、在看、看一看+焦点业务指标。同时,我们在工程同学的大力大举支持下也将内容领略技能处事化/东西化,一方面支持业务快速扩展,另一方面临外部分提供内容领略支持。

二、文本内容领略

业务中有大量的文本信息,包罗图文标题和正文,视频标题,ocr,评论等数据,需要对这些文本信息举办归一化,除了抽取分类、tag、entity,针对外部标签,我们还会做标签映射,面临画像中大量近似标签问题,我们也做了tag聚合/topic,同时我们还通过常识谱图的推理本领,增强对内容的领略深度和广度。

2.1 文天职类

文天职类是自然语言处理惩罚规模最活泼的研究偏向之一,今朝文天职类在家产界的应用场景很是普遍,文章的分类、评论信息的感情分类等均可帮助推荐系统,文天职类在推荐中对比标签与Topic具有较高的准召率与表明性,对付用户乐趣具有极大的区分度,而且作为内容画像中极具代表性的特征,往往是产物计策与自然推荐模子的重要决定依赖。

今朝已支持50+维一级主类目以及300+维二级子类目。

2.1.1 LSTM

在自然语言处理惩罚规模中,文天职类任务相较于文本抽取和摘要等任务更容易得到大量标注数据,因此在文天职类规模中深度进修相较于传统要领更容易得到较量好的结果。

前期我们回收了自然语言处理惩罚中常用的LSTM算法举办了准召率的摸底试验。但LSTM具有练习、预测环节无法并行等缺点,陪伴着推荐内容的体量增大,限制了迭代的效率。

万字长文读懂微信“看一看”内容领略与推荐

2.1.2 TextCNN

与LSTM对比,TextCNN利用了卷积 + 更大池化这两个在图像规模很是乐成的组合,以练习速度快,结果好等利益一段时间内涵家产界具有遍及的应用。

个中每个卷积核在整个句子长度上滑动,获得n个激活值,然后更大池化层在每一个卷积核输出的特征值列向量取更大值来供后级分类器作为分类的依据。但同时池化层也丢失了布局信息,因此很难去发明文本中的转折干系等巨大模式。

万字长文读懂微信“看一看”内容领略与推荐

2.1.3 fasttext

相关文章

用户消费行为模型的类型与使用

用户消费行为模型的类型与使用

用户消费行为模子可以或许为企业的品牌推广、运营勾当、产物设计、体验设计提供指导,有效地制止过多实验而带来的高本钱投入与挥霍,辅佐企业拟定越发公道、有效的营销与设计方案。本文从四个方面临用户消费行为模子...

我为什么不看好实体商超的社区团购之路

我为什么不看好实体商超的社区团购之路

“我为什么不看好实体商超的社区团购之路”,其实这个问题可以换成另外一个问题:社区拼团的门槛是什么? 本文重点比对实体商超,分析实体商超在社区团购这条路上是否有自己的独特优势,或者能否挑战已建立的社区团...

SaaS场景化:艰难而正确的事

SaaS场景化:艰难而正确的事

编辑导读:从数字加入景的贸易法则进化中,SaaS不只表示出对付细分场景的深耕,可能系统的场景办理方案本领打造,更在于充实领略数字化骤然加快下的贸易范式与糊口方法的变革,始终陪伴以火速的新场景开拓与设计...

互联网的下半场,是什么?

互联网的下半场,是什么?

今朝,互联网成长的海潮日新月异,但跟着互联网行业的高速成长,许多人揣摩互联网下半场已经走到了止境。 本文从互联网应用的角度去摸索,从直观的角度去讲授互联网的下半场并未竣事。 01 间隔王兴在2016...

中台产品经理实战(11):中台产品经理能力模型

中台产品经理实战(11):中台产品经理能力模型

好的中台产物司理是市场稀缺人才,许多企业求贤若渴。那么,一个优秀的中台产物司理需要具备什么样的本领呢?本文作者从三个方面展开讲授,对中台产物司理感乐趣的童鞋不要错过哦。 前天伴侣找到我,说他的公司需...

工业4.0时代,企业在供应链上应该做出什么改变?

工业4.0时代,企业在供应链上应该做出什么改变?

本文基于家产4.0时代的配景,叙述供给链差异模块的差异要求,而且以京东为例揭示企业在供给链上的打破,给其他公司以启示。 在家产4.0时代,我们将整个代价链融合在产物周期中举办组织和打点,并将贸易模式...