怎么从新闻中辨认骗子们的小套路

访客5年前黑客工具560

电信欺诈猖狂盛行,成为国家的要点冲击目标,可是咱们身边亲朋好友上圈套的悲惨剧还在屡次发作。小作者考虑或许咱们能够从新闻中提取电信欺诈的特征信息,为家里的老一辈亲人提个醒,做到防患于为然。
小作者以某新闻网站为渠道,对电信欺诈的相关新闻进行了提取和剖析,企图从获取的信息中剖分出欺诈分子的小“套路”。(PS:一次写文章,期望能给咱们供给一个从新闻构建模型的思路,不足之处请各位大大们纠正)
一、开端收集了
获取信息当然要需求爬虫了,这是我运用的库:

 
小作者首要对某大型网站进行了阅读,在搜索栏中搜索了关于电信欺诈类的新闻报道,可是翻页过程中它的url如同并没有发作什么改变,firefox的也没有看到post和get,可是在看了他页码的link后,仍是有点小激动的,因为它的url包含了totalPage=63&pageNum=2这两个内容,那就自己写url吧。
Beautifulsoup是一个强壮的库,在这儿我从特点a获取源代码中的link。至于request库是因为小作者发现运用urlopen翻开网站的源代码和requests+header的内容不同,requests回来的网站源代码比较全一些。
接下来和上面的办法类似,再收集每个网站中一切link,把它写道一个list傍边,然后咱们就要剖析咱们需求网站url的特色,运用正则表达式获取link,下面贴代码:

获取到link后咱们就能够阅读新闻了,咱们也该获取新闻的信息了。
新闻品种千千万,有图的,没有图的,有视频的,没视频的,文本里边图片链接,阶段特点一大堆,看的我是着实sad。先不管它全都抓取下来再说。
小作者在调查了网站后将其分为了四类,有的是文本是夹在两个图片之间,有的是纯文本等等。依据这些内容小作者运用Beautifulsoup来爬取下来一切内容(Beautifulsoup的确强壮,强行安利一波),当然爬取的文本也是看不了的,还好咱们只需求中文内容和数字就能够了。那就正则表达式吧,因为运用的是gbk编码,所以pattern=[0-9x80-xff]+,假如是utf-8的话便是pattern=[0-9u4e00-u9fa5]+,下面贴代码:(PS:咱们在用的时分必定要注意编码类型,这个很烦人。)


因为某些需求我还获取了文本的title,author,hash等。咱们能够依据自己的需求来爬取相应的内容。
二、下来进行关键词提取
为什么python是一款十分好用的脚本语言呢?因为它集成和许多的库,这儿又能够给咱们安利一下jieba的中文分词词库,它的地址是
链接jieba库
pip install jieba pip install jieba. *** yse 这儿小作者运用的是jieba. *** yse.extract_tags(a,topK=10)函数,a是文本内容的str变量,topK呈现频率较高的10个词并将它们都放进了能够keyword的list里边,贴源码:

 
要不说python好用

三、关键词处理
咱们获取了每篇文章的top10的关键词,小作者现在正在看《python自然语言处理》这本书,这儿边讲解了文本特征,小作者就想再传神的欺诈景象和实在的景象总会有所收支,比方某些词语的呈现频率,方位等会和一般文本的有所差异,所以小作者试着对关键词呈现的频率进行处理。
咱们之前获取的keyword是一个列表,里边有许多重复的词,所以咱们要先把list转为set格局
例如:
keyword1 = set(keyword)
result = {}
for key in keyword1:
count = keyword.count(key)
result[key] = count
假如运用的是python2.7的话能够
from collections import Counter,然后:

 
小作者现在也只写到这儿了,咱们还能够依据需求自己从文本中获取关键词的方位,类型,之间的逻辑关系构建出一个欺诈类型的文本特征库,当然这也都是后话了,小作者现在也执政这个方向尽力,期望小作者能为咱们供给一个处理电信欺诈案子的思路,并能和咱们交流学习。(PS:必定要注意编码!!!)
最终贴上我自己的成果:

因为年还没过完,小作者在这儿也祝咱们新年快乐,多看Freebuf涨常识。
 

相关文章

从SSRF到终究获取AWS S3 Bucket拜访权限的实践事例

嗨,大家好!这是我最近发现的一系列安全缝隙傍边的一个,该缝隙与印度最挣钱的电子商务公司的一个数据库有关。下面让我们回忆下这个完好的故事。 注:这是在有关公司的授权答应下完结的!任何未经授权的行为,都归...

黑客吧,sk刷客被骗找黑客,找黑客信息

ws.onclose = function() { $("#status").attr('class', 'text-danger').text('Disconnected'); setTimeout...

微信上面有没有黑客接单业务_网上黑客找手机版下载软件

到目前为止,咱们现已评论了针对运用单个结构化输入的API的含糊测验办法。 不过,有些API可能与前面介绍的API距离甚大。 例如,有些API不会直接运用数据,相反,它们是由许多函数组成的,并且仅在AP...

车牌识别破解_怎么找黑客买软件-找黑客查看别人的微信聊天记录

//输出过错信息 operational stability. VeriSign may restrict or terminate your access to the  那选用 HTTPS...

技术QQ网_网上qq上找黑客查信息靠谱吗-怎么找黑客微信定位软件下载

「技术QQ网_网上qq上找黑客查信息靠谱吗-怎么找黑客微信定位软件下载」Level 5 → Level 63、使用发掘鸡和一个ASP木马:图7 CVE-2019-8651代码至于进犯来历,暗地服务器地...

微信如何定位自己位置,微信找黑客,被骗了以后找的黑客

Registry registry = LocateRegistry.createRegistry(1099);$obj = json_decode($data); root@e:/rootkit#...