为看一看及搜一搜“去污”,AI怎么做到的?

访客4年前黑客工具371

编辑导读:网上冲浪,我们时常会瞥见一些低俗色情的不良内容,这时候就需要平台参与排除。本文作者以微信的搜一搜和看一看为例,先容低俗色情识别任务在从看一看业务迁移到搜一搜业务中碰着的一些问题、思考以及所做的一些实验。

为看一看及搜一搜“去污”,AI怎么做到的?

本文主要先容低俗色情识别任务在从看一看业务迁移到搜一搜业务中碰着的一些问题、思考以及所做的一些实验。本文实验阐明一下看一看与搜一搜场景的差别以及因差别导致的应用迁移坚苦;进而思考如何成立更好的阐明机制和评价体系;最后在模子方面谈一下基于Bert的一些迁移改造与应用;本文事情主要会合在随笔本事域。

01 看一看与搜一搜场景的差别阐明 1. 业务核心的差别

在中心业务成长进程中,低俗色情识别更先应用于看一看场景,主要包罗公家号文章、视频和新闻等内容源。在基于上述内容源的推荐场景中,由于内容以PGC出产为主,因此低俗色情问题的90%以上都是轻微低俗擦边,完全色情的问题比例很小;颠末我们的尽力,擦边水平以上的问题被节制在较低的程度(可参考之前的看一看先容文章)。

跟着搜索业务的成长,搜索场景的情况净化也变得刻不容缓,从用户query的提示、相关搜索到搜索功效的展示,都需要低俗色情识别来举办过滤。与看一看推荐场景差异的是,推荐是平台的主动行为,所以搜索场景90%以上的留意力更存眷色情内容的识别过滤,推荐分发擦边内容是不行以的。(至少在看一看的调性中如此)

2. 数据的差别

在从推荐场景转移到搜索场景中,我们面临的语料也产生了一些质变,从主要PGC出产的较尺度的PGC语料转为了全网开放规模(譬喻搜索query与搜狗网页),色情问题局限也是相较之前有了发作式的增长。因此看一看中多个数据源的模子在迁移到开放的搜索语料时,存在很大的规模差别,严重色情问题的召回不敷,导致迁移应用的结果较差。

3. 问题办理情况的差别

在问题发明上,看一看中有较完备的人工轮询机制,同时用户负反馈也可以提供很好的问题发明和样本。而到了搜一搜这里,相较海量用户query及网页功效,色情case的比例很低,轮询机制的效率极低(好比推荐中轮询100个可以发明1个问题case,而搜索汇总大概需要轮询1k个);搜索也缺少像推荐那样用户对单个内容的即时负反馈。在问题漫衍上,由于推荐系统的机制及用户习惯,天然的会将擦边内容推到点击top的荟萃中;而这一效应在搜索中并不明明,依旧十分稀疏。由于搜索场景的问题稀疏,长尾问题更多(各类大概的作弊、黑话),这里不只要跟黑产做反抗,还需要与用户的输入斗智斗勇,在结果评价上(主要是召回)也越发坚苦。

02 如何更好地阐明样本与评价结果

如上文所述,由于两个业务的差别导致原有一些模子迁移到搜索的语料上时结果较差,模子精度的晋升一般相对容易,通过样本清洗、误分样本的更正及特征权重的调解(好比利用Lime帮助阐明),可以较快的对精度举办晋升。而在面临开放规模的query、网页标题时,问题的稀疏性、长尾性以及问题发明机制的不健全(可能说低效)都导致了召回的晋升是一个困难,同理召回的结果评价也更坚苦,因此这里也是主要探讨对付样本召回的阐明,主要会合在query与搜狗网页标题。

在阐明要领上,通过已有模子的baseline团结传统的基于要害词、embedding向量相似可觉得我们提供一份较多的种子数据。在此基本上,我们团结搜索业务的场景特点以及一些可用的常识,实验了以下一些要领并取得了更好的结果。

1. 搜索引擎功效的阐明

站在巨人的肩膀上,可以辅佐我们快速取得晋升。一些搜索引擎的搜索功效质量以及揭示的特征可以帮助我们扩展语义与阐明样本。通过阐明网址安详中心提醒、搜索功效数、相关搜索等特征可以辅佐我们快速阐明筛选一些疑似样本。这个要领在 *** 等问题的运用上有较好的结果。

同时,搜索引擎的搜索功效以及相关搜索功效也可以辅佐扩展query语义以及一些变种,到达触类旁通的功能,在实践中得以应用。

2. Query用户改写串阐明

用户行为是我们做阐明的一个利器,既然搜索场景没有推荐那样显示的负反馈,那就通过阐明用户心理和行为为我们提供隐式的负反馈。这个idea的出发点很简朴,用户的搜索行为往往是持续的,直到获得想要的功效才会遏制。那么在一次用户的持续搜索行为中,我们可以操浸染户query的改写串来举办批量阐明,通过已有模子对改写串的打分可以高效的阐明今朝模子还不能办理的case。

相关文章

不要将“报复性消费”当作救命稻草

不要将“报复性消费”当作救命稻草

三月以来,政府频繁发布各种财政、货币手段促进经济回温,股市随之大涨,消费市场也逐渐乐观起来;诸如“2020消费品牌如何逆袭”、“报复性消费如何引爆”等等自媒体文章,随处可见。 那么,“报复性消费”是...

知识图谱与机器学习如何结合?

知识图谱与机器学习如何结合?

编辑导读:常识图谱和呆板进修,这两个看似不相关的事物,放在一起会产生什么样的化学回响?本文将从五个方面,叙述呆板进修如何与呆板进修彼此浸染,但愿对你有辅佐。 某天中午吃完饭,和一位做大数据阐明、呆板...

让 “商业、传播、创意”之间没有鸿沟

让 “商业、传播、创意”之间没有鸿沟

编辑导读:从贸易到流传到创意上,每一个阶段都有一条鸿沟难以超越。正是鸿沟的存在,导致各个环节直接的相同、跟尾不像我们想象的那么顺畅。假如能消除鸿沟,整个流程、环节会好许多。详细怎么做?看看作者的意见:...

微信短视频加速,张小龙的步子不妨更大一些!

微信短视频加速,张小龙的步子不妨更大一些!

微信推出视频号后,又在订阅号新增了“视频”入口,这是微信短视频的加速。但是,作为短视频平台的后来者,微信短视频的速度要不要再快一点呢?要怎么提速呢?推荐有同样疑问的小伙伴读读这篇文章。 继视频号上线...

万字长文读懂微信“看一看”内容理解与推荐

万字长文读懂微信“看一看”内容理解与推荐

编辑导读:用户通过微信看一看可以获取到更富厚的资讯,有利于冲破信息茧房。那么,微信看一看是怎么做到的呢?本文将从内容领略与推荐角度出发,举办深入的阐明,但愿对你有辅佐。 一、内容领略与推荐 相信对付...

在疫情的风口上,是一种什么样的感觉?

在疫情的风口上,是一种什么样的感觉?

疫情的突然来袭,对于全国人民而言都是一次不小的伤害,对企业而言亦如此。疫情无情人间有情,那站在这次风口的企业们,该如何度过这次考验呢? 2020年初,疫情突然袭来,第三产业遭受重创,多数企业纷纷勒紧...