万字长文读懂微信“看一看”内容理解与推荐

访客4年前黑客工具1095

编辑导读:用户通过微信看一看可以获取到更富厚的资讯,有利于冲破信息茧房。那么,微信看一看是怎么做到的呢?本文将从内容领略与推荐角度出发,举办深入的阐明,但愿对你有辅佐。

万字长文读懂微信“看一看”内容领略与推荐

一、内容领略与推荐

相信对付不少人而言微信已经成为获取资讯的主要场景。与此同时,由于微信用户群体的复杂,也吸引了大量的内容出产者在微信公家平台缔造内容,以获取用户存眷、点赞、保藏等。微信内的内容推荐产物:看一看应运而生。

团结微信用户的内容消费需求,以业务方针为导向,我们的推荐系统从基于属性召回、到协同&社交召回、再到深度模子召回举办了演进,深度模子涵盖了序列模子、双塔模子、殽杂模子、图模子,最终形成了多种召回并列、多路模子配合浸染的看一看内容召回系统。

假如把推荐系统中工程处事比作骨骼,那么推荐模子可以比作肌肉,还需要内容领略作为血液,纵向贯串整个推荐系统,从内容库、到召回、再到排序和画像,绵绵不断的晋升系统的推荐精度,本文将着重先容看一看内容领略平台及应用。

看一看接入了很是多相助方的数据作为内容源。由于接入数据源较多,各家数据从内容、质量、品类等差别性较量大。看一看平台方会对数据做“归一化”操纵,然后应用于推荐系统线上部门。

内容领略界说:对接各类外部图文等内容,对接入内容做业务级内容多维基能力略,同时举办外部标签与自有标签体系对齐,完成应用级内容打标。

反馈至下游应用方:用户需求系统,召回计策,召回模子,排序/混排等利用;同时,在业务数据转动与迭代中批改数据刻画精度与结果,慢慢贴合与晋升业务线结果。

我们将内容画像界说为两个大维度:通过内容自己来领略内容,通过行为反馈来领略内容。前者主要针对内容抽取静态属性标签。后者,通过行为积聚的后验数据、统计、或模子预估内容的常识、倾向性、投放方针以及抽象表达。

万字长文读懂微信“看一看”内容领略与推荐

内容画像界说

内容领略主要包罗文能力略、多媒体领略、内容倾向性、投放方针预估,主要应用在内容试探效率晋升,推荐分发模子的特征泛化,多场景的内容库构建,推荐相关性召回和语义排序以及封面图优选创意,旨在晋升精选、在看、看一看+焦点业务指标。同时,我们在工程同学的大力大举支持下也将内容领略技能处事化/东西化,一方面支持业务快速扩展,另一方面临外部分提供内容领略支持。

二、文本内容领略

业务中有大量的文本信息,包罗图文标题和正文,视频标题,ocr,评论等数据,需要对这些文本信息举办归一化,除了抽取分类、tag、entity,针对外部标签,我们还会做标签映射,面临画像中大量近似标签问题,我们也做了tag聚合/topic,同时我们还通过常识谱图的推理本领,增强对内容的领略深度和广度。

2.1 文天职类

文天职类是自然语言处理惩罚规模最活泼的研究偏向之一,今朝文天职类在家产界的应用场景很是普遍,文章的分类、评论信息的感情分类等均可帮助推荐系统,文天职类在推荐中对比标签与Topic具有较高的准召率与表明性,对付用户乐趣具有极大的区分度,而且作为内容画像中极具代表性的特征,往往是产物计策与自然推荐模子的重要决定依赖。

今朝已支持50+维一级主类目以及300+维二级子类目。

2.1.1 LSTM

在自然语言处理惩罚规模中,文天职类任务相较于文本抽取和摘要等任务更容易得到大量标注数据,因此在文天职类规模中深度进修相较于传统要领更容易得到较量好的结果。

前期我们回收了自然语言处理惩罚中常用的LSTM算法举办了准召率的摸底试验。但LSTM具有练习、预测环节无法并行等缺点,陪伴着推荐内容的体量增大,限制了迭代的效率。

万字长文读懂微信“看一看”内容领略与推荐

2.1.2 TextCNN

与LSTM对比,TextCNN利用了卷积 + 更大池化这两个在图像规模很是乐成的组合,以练习速度快,结果好等利益一段时间内涵家产界具有遍及的应用。

个中每个卷积核在整个句子长度上滑动,获得n个激活值,然后更大池化层在每一个卷积核输出的特征值列向量取更大值来供后级分类器作为分类的依据。但同时池化层也丢失了布局信息,因此很难去发明文本中的转折干系等巨大模式。

万字长文读懂微信“看一看”内容领略与推荐

2.1.3 fasttext

相关文章

微信看一看,好的内容产品长什么样?

微信看一看,好的内容产品长什么样?

编辑导读:微信“看一看”成果上线之后,颠末屡次迭代,得到了许多用户的好评。你可以瞥见你的好伴侣都在看什么文章,更有利于内容流传并进一步强化了社交干系。本文将从三个方面,环绕微信看一看展开阐明,但愿对你...

深度思考:微信看一看背后的内容分发机制(中)

深度思考:微信看一看背后的内容分发机制(中)

一个优秀的内容平台,一方面需要拥有一连出产奇特内容的内容生态,另一方面需要有一种行之有效的机制来筛选优质内容并高效分发至每个用户。本文作者以微信看一看为线索,记录了本身关于内容分发的诸多思考,与各人分...

详文解读微信「看一看」多模型内容策略与召回

详文解读微信「看一看」多模型内容策略与召回

编辑导读:微信已经成了不少人获取咨询的来历之一,看一看成果在这基本上实现内容的准确推荐,以及拓宽用户阅读乐趣,冲破信息茧房。本文从六个方面,以多模子内容计策与召回的角度阐明微信看一看,但愿对你有辅佐。...

深度思考:微信看一看背后的内容分发机制(上)

深度思考:微信看一看背后的内容分发机制(上)

一个优秀的内容平台,一方面需要拥有一连出产奇特内容的内容生态,另一方面需要有一种行之有效的机制来筛选优质内容并高效分发至每个用户。本文作者以微信看一看为线索,记录了本身关于内容分发的诸多思考,与各人分...