“聊骚”屡禁不止,深度学习技术如何对抗语音色情?

访客4年前黑客工具896

在互联网时代,每天各式各样的信息充斥着我们的视野。根据信息的载体不同,我们可以将信息分为文本信息、图片信息、视频信息和音频信息等。内容审核,就是需要对文本、图片、视频和音频等内容进行审核,给各类违禁内容贴上标签并拦截。违禁内容涉及的领域比较宽泛,如色情、暴力、涉政、恐怖等。

人工智能是一项能让机器像人类一样思考和判断的技术。深度学习作为人工智能领域的一个分支,受到了学者和工业界广泛的关注。本文主要介绍基于深度学习的色情语音和?A *** R 语音的识别技术。

一、问题描述

根据业务需求,色情语音和 A *** R 语音属于违禁内容,需要被自动拦截。我们的任务就是通过深度学习模型,从大量客户传入的语音中自动识别色情语音和 A *** R 语音。色情语音指的是男性和女性的 *** 声,而 A *** R 语音指的是自发性知觉经络反应,意思是指“人体通过视、听、触、嗅等感知上的 *** ,在颅内、头皮、背部或身体其他部位产生的令人愉悦的独特 *** 感,又名耳音、颅内 *** 等”(定义来源于百度百科)的语音。

二、系统实现

2.1解决方案与系统架构

我们是用深度卷积神经 *** ,深度循环神经 *** 和注意力机制等模块来构建我们的深度神经 *** ,然后用训练数据训练神经 *** ,等 *** 收敛后,我们固定住 *** 参数,来最终预测输入的语音数据的标签。如下图所示,虚线上方为训练阶段,下方为预测阶段。从图中可知,系统主要包括数据预处理、深度神经 *** 和损失函数设计等几个主要模块。接下来我们分别介绍这几个模块。

05539106-357d-41a5-9cf6-220847ef5a7d.png

图1 | 解决方案

2.2数据预处理

数据预处理作为音频数据进入神经 *** 的中间步骤,起着承上启下的作用。在训练和预测阶段,数据预处理模块略有不同。训练阶段,预处理主要包括声学特征 FBank 提取和数据增强两个步骤。而预测阶段,该模块仅包含声学特征 FBank 提取这一步骤。声学特征 FBank 特征因为其独特的基于倒谱的提取方式,更加的符合人类的听觉原理,因而在语音任务中,也是最为普遍采用、最有效的声学特征。训练时的数据增强,是希望得到更多的训练数据,使得最终训练收敛后的模型在预测阶段具有更好的鲁棒性。接下来,我们将分别介绍声学特征 FBank 的提取过程和数据增强 *** SpecAugment。

2.2.1 FBank 特征

Fbank 特征的提取大致经过了加窗、傅里叶变换、梅尔滤波等操作,具体流程如下图所示:

5c4761cb-5e08-4b92-8ae0-f5bede1d7df9.png

图2 | FBank 特征提取过程

之一步为分帧并加窗。其中分帧的主要目的是将语音信号等切分为短时间语音帧,短时间语音帧可以认为是平稳信号,这也是后续傅里叶变换的前提。加窗的主要目的是减小信号的频谱泄漏,一般采用的窗函数为汉明窗或者汉宁窗。加窗与分帧过程如下所示:

b5b5dcfb-b1cd-4011-b995-8fcf237e225f.png

图3 | 分帧和加窗(来源:http://www.recognize-speech.com)

第二步为傅里叶变换。傅里叶变换的目的是提取语音的频域信号,经过傅里叶变换之后,我们就得到了每帧语音信号的频谱,将所有频谱按时间顺序排列得到如下的语谱图:

aa5b5258-ab26-4942-bb02-d11b655b54ba.png

图4 | 语谱图

第三、四步分别为梅尔滤波和取对数操作。梅尔滤波的原因在于研究发现,人耳对声音频率变化的敏感程度是不一致的。在低频区域,声音频率稍加变化,人耳就能察觉出来。但是在高频区域,需要比低频区域变化更大的能量,人耳才能感知到其发生了变化。这一步骤利用一组特定滤波器并接上后续的对数操作来模拟人耳的听觉特性。

2.2.2 数据增强 *** SpecAugment

SpecAugment 是 Google 提出的一种音频数据增强方式。它通过扭曲时域信号,掩盖频域通道与时域通道,修改了频谱图。这种增强方式可以用来增加 *** 的鲁棒性,来对抗时域上的变形,以及频域上的部分片段损失。下面展示了一个增强的例子。

45ebf5f0-0a59-42b1-8496-bbb25fc87960.png

图5 | SpecAugment

2.3 深度神经 *** 模型设计

在介绍完数据预处理模块之后,我们现在介绍图1中的深度神经 *** 模型结构,如下图所示:

6a4c32c1-162f-424f-9985-9bbfd45ed27f.png

图6 | 语音分类模型图

如图6所示,语音数据经过数据预处理之后,得到 FBank 特征 , FBank 特征依次经过卷积神经 *** (CNN) ,循环神经 *** (BI-LSTM) ,注意力模块 (Attention) ,最后经过全连接层和 SoftMax 层输出语音的类别。

之一阶段,使用 CNN *** 来做语音特征的进一步提取。尽管预处理得到的 FBank 特征已经是语音信号很好的特征表达,但是 FBank 通用性很强,在语音各个任务里面都有着广泛的应用,我们为了得到对色情和 A *** R 语音分类更有效的语音特征,我们需要通过 CNN *** 来提取。CNN 主要是做了局部特征的提取,在色情和 A *** R 语音分类任务中,带有显著违禁特征的片段会对结果有比较关键的影响,所以 CNN *** 可以很好地工作在此任务中。

第二阶段,将 CNN 提取到的特征通过 LSTM 来进一步提取语音特征。因为 LSTM 能更有效地捕捉序列的前后依赖和上下文关系。在色情语音和 A *** R 语音识别中,上下文信息对提高分类的准确性会有所帮助,因为一般来讲色情语音出现在背景音较安静的房间内的概率,要比出现在背景音很嘈噪的大街上大很多。

第三阶段,引入 Attention 机制, Attention 可以帮助模型关注到对分类更有帮助的特征。我们发现近年来基于 Attention 的模型已越来越多地被用于谷歌、 Facebook 和 Salesforce 等大型公司的 AI 研究。

最后通过全连接层和 Softmax 层输出最终语音的类别。

三、总结

本文主要介绍了基于深度学习的色情语音和?A *** R 语音的识别技术。首先介绍了数据预处理,以及模型的设计,接着介绍了评测方案,最后给出了结论。相关内容已经整理成专利交由专利局审核,期待利用先进技术高效地对抗语音中的色情内容。

【本文来自于易盾技术团队,作者为板锅锅】

相关文章

猪八戒网京翰教育靠黑客(猪八戒网收购京翰教育)

猪八戒网京翰教育靠黑客(猪八戒网收购京翰教育)

本文导读目录: 1、京翰教育不好、孩子上的都厌学了、从早上八点开始写,写到晚上九点半十点、大家报的时候谨慎选择 2、京翰教育怎么样?同学家长推荐的,不知道好不好? 3、京翰教育一对一线下补习到...

看门狗2怎么找黑客团队-黑客24小时在线服务(腾讯24小时在线服务)

看门狗2怎么找黑客团队-黑客24小时在线服务(腾讯24小时在线服务)

看门狗2怎么找黑客团队相关问题 哪里可以学计算机编程和黑客相关问题 天猫店如何彻底拉黑客户端 无人用的qq号(无人使用的qq号)...

成都新增8例新冠肺炎境尤泓斐外输入确诊病例 详情公布

  中新网11月3日电 据成都市卫健委官方微信消息,11月2日,成都市新增8例境外输入新冠肺炎确诊病例,其中3例系昨日通报的无症状感染者订正,新增出院2人。新增境外输入无症状感染者10人,3名境外输入...

爱有多少种

  2种,1种系真正的爱,1个爱完筹备仳离。   具体答复\(^o^)/~,要真实(⊙o⊙)几多哦   若是有缘,时间,空间都不是间隔;若是无缘,终是相聚也无法会心。凡事不必太在意,更不需去强求,就让...

泉港黑客接单_找厦门黑客

尽管在2017年底和2018年头,“歹意挖矿进犯”占有了网络要挟范畴的主导地位,但现在由于加密钱银的价值不断下降,网页挖矿发作的赢利也不像之前那样那么多了。 除此之外,咱们还发现Coinhive相关的...

本站友情链接申请说明

本站友情链接申请说明

我一直坚信先友情后链接这个概念,所以我博客的友情链接申请条件基本是没原则、没节操的链接了,只要QQ联系我了,我基本是无条件的跟你交换,什么权重、排名、流量基本抛在脑后了。 今天本站开通申请友情链接,...