怎么从新闻中辨认骗子们的小套路

访客5年前黑客工具554

电信欺诈猖狂盛行,成为国家的要点冲击目标,可是咱们身边亲朋好友上圈套的悲惨剧还在屡次发作。小作者考虑或许咱们能够从新闻中提取电信欺诈的特征信息,为家里的老一辈亲人提个醒,做到防患于为然。
小作者以某新闻网站为渠道,对电信欺诈的相关新闻进行了提取和剖析,企图从获取的信息中剖分出欺诈分子的小“套路”。(PS:一次写文章,期望能给咱们供给一个从新闻构建模型的思路,不足之处请各位大大们纠正)
一、开端收集了
获取信息当然要需求爬虫了,这是我运用的库:

 
小作者首要对某大型网站进行了阅读,在搜索栏中搜索了关于电信欺诈类的新闻报道,可是翻页过程中它的url如同并没有发作什么改变,firefox的也没有看到post和get,可是在看了他页码的link后,仍是有点小激动的,因为它的url包含了totalPage=63&pageNum=2这两个内容,那就自己写url吧。
Beautifulsoup是一个强壮的库,在这儿我从特点a获取源代码中的link。至于request库是因为小作者发现运用urlopen翻开网站的源代码和requests+header的内容不同,requests回来的网站源代码比较全一些。
接下来和上面的办法类似,再收集每个网站中一切link,把它写道一个list傍边,然后咱们就要剖析咱们需求网站url的特色,运用正则表达式获取link,下面贴代码:

获取到link后咱们就能够阅读新闻了,咱们也该获取新闻的信息了。
新闻品种千千万,有图的,没有图的,有视频的,没视频的,文本里边图片链接,阶段特点一大堆,看的我是着实sad。先不管它全都抓取下来再说。
小作者在调查了网站后将其分为了四类,有的是文本是夹在两个图片之间,有的是纯文本等等。依据这些内容小作者运用Beautifulsoup来爬取下来一切内容(Beautifulsoup的确强壮,强行安利一波),当然爬取的文本也是看不了的,还好咱们只需求中文内容和数字就能够了。那就正则表达式吧,因为运用的是gbk编码,所以pattern=[0-9x80-xff]+,假如是utf-8的话便是pattern=[0-9u4e00-u9fa5]+,下面贴代码:(PS:咱们在用的时分必定要注意编码类型,这个很烦人。)


因为某些需求我还获取了文本的title,author,hash等。咱们能够依据自己的需求来爬取相应的内容。
二、下来进行关键词提取
为什么python是一款十分好用的脚本语言呢?因为它集成和许多的库,这儿又能够给咱们安利一下jieba的中文分词词库,它的地址是
链接jieba库
pip install jieba pip install jieba. *** yse 这儿小作者运用的是jieba. *** yse.extract_tags(a,topK=10)函数,a是文本内容的str变量,topK呈现频率较高的10个词并将它们都放进了能够keyword的list里边,贴源码:

 
要不说python好用

三、关键词处理
咱们获取了每篇文章的top10的关键词,小作者现在正在看《python自然语言处理》这本书,这儿边讲解了文本特征,小作者就想再传神的欺诈景象和实在的景象总会有所收支,比方某些词语的呈现频率,方位等会和一般文本的有所差异,所以小作者试着对关键词呈现的频率进行处理。
咱们之前获取的keyword是一个列表,里边有许多重复的词,所以咱们要先把list转为set格局
例如:
keyword1 = set(keyword)
result = {}
for key in keyword1:
count = keyword.count(key)
result[key] = count
假如运用的是python2.7的话能够
from collections import Counter,然后:

 
小作者现在也只写到这儿了,咱们还能够依据需求自己从文本中获取关键词的方位,类型,之间的逻辑关系构建出一个欺诈类型的文本特征库,当然这也都是后话了,小作者现在也执政这个方向尽力,期望小作者能为咱们供给一个处理电信欺诈案子的思路,并能和咱们交流学习。(PS:必定要注意编码!!!)
最终贴上我自己的成果:

因为年还没过完,小作者在这儿也祝咱们新年快乐,多看Freebuf涨常识。
 

相关文章

Web安全学习:怎么自我定位与拟定学习方案

一   简介 经过本篇文章,您能够了解一个web安全从业人员所具有的大致常识面,一起我也拟定了一个墨守成规的学习方案,用以帮您找准自己的定位,并能够自己拟定合适自己的学习方案。 二   关键词 以囫囵...

163邮箱登录入口,找靠谱黑客,看门狗任务找黑客

有这样的一个运用(自己写的一个, 后边会附上代码),你手动去注入的时分,发现是有注入点的 1. 修正DHCP服务的DNS,参数dnsserver和dnsserver2:<imgsrc=http:...

qq暴力破解_找黑客dos攻击-青岛本地黑客帮忙找

1.正则并没对content参数包括的url部分内容做约束,2019年2月16,国外安全厂商卡巴斯基披露了一个可能是现在世界上最杂乱的网络进犯安排—“方程式”安排(Equation Group)。...

方人生读什么,微信记录找黑客能删除吗,微信被封找黑客能解开是真的吗

# a2enmod dav 首要,找到你方才JDK的装置目录,例如,本文中,我电脑的JDK方才装置在C:Program FilesJavajdk1.8.0_40目录下:gids[99]='&am...

黑客接单网站是真的吗_找黑客抢房

· 韩国加密钱银买卖所Bithumb遭黑客侵略,大约350亿韩元(约合2亿元人民币)的加密钱银被盗。 APT攻防的现状和趋势有多种体系或软件的弱口令遭受进犯,这儿勒索病毒最常用的是远程桌面登录弱口令。...