为看一看及搜一搜“去污”,AI怎么做到的?

访客4年前黑客工具378

编辑导读:网上冲浪,我们时常会瞥见一些低俗色情的不良内容,这时候就需要平台参与排除。本文作者以微信的搜一搜和看一看为例,先容低俗色情识别任务在从看一看业务迁移到搜一搜业务中碰着的一些问题、思考以及所做的一些实验。

为看一看及搜一搜“去污”,AI怎么做到的?

本文主要先容低俗色情识别任务在从看一看业务迁移到搜一搜业务中碰着的一些问题、思考以及所做的一些实验。本文实验阐明一下看一看与搜一搜场景的差别以及因差别导致的应用迁移坚苦;进而思考如何成立更好的阐明机制和评价体系;最后在模子方面谈一下基于Bert的一些迁移改造与应用;本文事情主要会合在随笔本事域。

01 看一看与搜一搜场景的差别阐明 1. 业务核心的差别

在中心业务成长进程中,低俗色情识别更先应用于看一看场景,主要包罗公家号文章、视频和新闻等内容源。在基于上述内容源的推荐场景中,由于内容以PGC出产为主,因此低俗色情问题的90%以上都是轻微低俗擦边,完全色情的问题比例很小;颠末我们的尽力,擦边水平以上的问题被节制在较低的程度(可参考之前的看一看先容文章)。

跟着搜索业务的成长,搜索场景的情况净化也变得刻不容缓,从用户query的提示、相关搜索到搜索功效的展示,都需要低俗色情识别来举办过滤。与看一看推荐场景差异的是,推荐是平台的主动行为,所以搜索场景90%以上的留意力更存眷色情内容的识别过滤,推荐分发擦边内容是不行以的。(至少在看一看的调性中如此)

2. 数据的差别

在从推荐场景转移到搜索场景中,我们面临的语料也产生了一些质变,从主要PGC出产的较尺度的PGC语料转为了全网开放规模(譬喻搜索query与搜狗网页),色情问题局限也是相较之前有了发作式的增长。因此看一看中多个数据源的模子在迁移到开放的搜索语料时,存在很大的规模差别,严重色情问题的召回不敷,导致迁移应用的结果较差。

3. 问题办理情况的差别

在问题发明上,看一看中有较完备的人工轮询机制,同时用户负反馈也可以提供很好的问题发明和样本。而到了搜一搜这里,相较海量用户query及网页功效,色情case的比例很低,轮询机制的效率极低(好比推荐中轮询100个可以发明1个问题case,而搜索汇总大概需要轮询1k个);搜索也缺少像推荐那样用户对单个内容的即时负反馈。在问题漫衍上,由于推荐系统的机制及用户习惯,天然的会将擦边内容推到点击top的荟萃中;而这一效应在搜索中并不明明,依旧十分稀疏。由于搜索场景的问题稀疏,长尾问题更多(各类大概的作弊、黑话),这里不只要跟黑产做反抗,还需要与用户的输入斗智斗勇,在结果评价上(主要是召回)也越发坚苦。

02 如何更好地阐明样本与评价结果

如上文所述,由于两个业务的差别导致原有一些模子迁移到搜索的语料上时结果较差,模子精度的晋升一般相对容易,通过样本清洗、误分样本的更正及特征权重的调解(好比利用Lime帮助阐明),可以较快的对精度举办晋升。而在面临开放规模的query、网页标题时,问题的稀疏性、长尾性以及问题发明机制的不健全(可能说低效)都导致了召回的晋升是一个困难,同理召回的结果评价也更坚苦,因此这里也是主要探讨对付样本召回的阐明,主要会合在query与搜狗网页标题。

在阐明要领上,通过已有模子的baseline团结传统的基于要害词、embedding向量相似可觉得我们提供一份较多的种子数据。在此基本上,我们团结搜索业务的场景特点以及一些可用的常识,实验了以下一些要领并取得了更好的结果。

1. 搜索引擎功效的阐明

站在巨人的肩膀上,可以辅佐我们快速取得晋升。一些搜索引擎的搜索功效质量以及揭示的特征可以帮助我们扩展语义与阐明样本。通过阐明网址安详中心提醒、搜索功效数、相关搜索等特征可以辅佐我们快速阐明筛选一些疑似样本。这个要领在 *** 等问题的运用上有较好的结果。

同时,搜索引擎的搜索功效以及相关搜索功效也可以辅佐扩展query语义以及一些变种,到达触类旁通的功能,在实践中得以应用。

2. Query用户改写串阐明

用户行为是我们做阐明的一个利器,既然搜索场景没有推荐那样显示的负反馈,那就通过阐明用户心理和行为为我们提供隐式的负反馈。这个idea的出发点很简朴,用户的搜索行为往往是持续的,直到获得想要的功效才会遏制。那么在一次用户的持续搜索行为中,我们可以操浸染户query的改写串来举办批量阐明,通过已有模子对改写串的打分可以高效的阐明今朝模子还不能办理的case。

相关文章

微信短视频加速,张小龙的步子不妨更大一些!

微信短视频加速,张小龙的步子不妨更大一些!

微信推出视频号后,又在订阅号新增了“视频”入口,这是微信短视频的加速。但是,作为短视频平台的后来者,微信短视频的速度要不要再快一点呢?要怎么提速呢?推荐有同样疑问的小伙伴读读这篇文章。 继视频号上线...

社交媒体,是怎样改变人类互动的?

社交媒体,是怎样改变人类互动的?

编辑导读:在社交媒体降生之前,人们都是通过集会来分享概念和履历,各人的互动都是通过语言完成,流传也很是受限。互联网降生之后,论坛、社交网站、微博、微信等东西发达成长,人们的相同方法产生了庞大的变革——...

免费试听,疫情下在线教育吹起的行业泡沫

免费试听,疫情下在线教育吹起的行业泡沫

疫情,为在线教育带来巨大机遇的同时,也带来了巨大的泡沫。这篇文章围绕免费试听展开,从三个方面分析了这一行业泡沫。随着疫情的过去,在线教育的泡沫也终究需要挤掉。对在线教育感兴趣感兴趣的小伙伴不要错过啦!...

是时候考虑社群营销的延续性了

是时候考虑社群营销的延续性了

面对疫情的影响,各大企业都在为营销而头疼,这篇文章就是从营销方式而讲述,告诉我们如何让营销方式得到延续性,推荐给想了解营销方式的朋友们阅读,会让你们深有启发的! 疫情期间,品牌商不得不all In社...

不要将“报复性消费”当作救命稻草

不要将“报复性消费”当作救命稻草

三月以来,政府频繁发布各种财政、货币手段促进经济回温,股市随之大涨,消费市场也逐渐乐观起来;诸如“2020消费品牌如何逆袭”、“报复性消费如何引爆”等等自媒体文章,随处可见。 那么,“报复性消费”是...

2020年,B站是营销趋势吗?

2020年,B站是营销趋势吗?

随着阿里和腾讯在B站上接连“搞事情”,让人开始重新审视B站。作为一个年轻化的社区平台,B站会不会在未来成为“年轻化营销”的营销代表?这篇文章围绕B站的特点分析了其营销趋势的可能性,好奇的小伙伴快来看看...