电信欺诈猖狂盛行,成为国家的要点冲击目标,可是咱们身边亲朋好友上圈套的悲惨剧还在屡次发作。小作者考虑或许咱们能够从新闻中提取电信欺诈的特征信息,为家里的老一辈亲人提个醒,做到防患于为然。
小作者以某新闻网站为渠道,对电信欺诈的相关新闻进行了提取和剖析,企图从获取的信息中剖分出欺诈分子的小“套路”。(PS:一次写文章,期望能给咱们供给一个从新闻构建模型的思路,不足之处请各位大大们纠正)
一、开端收集了
获取信息当然要需求爬虫了,这是我运用的库:
小作者首要对某大型网站进行了阅读,在搜索栏中搜索了关于电信欺诈类的新闻报道,可是翻页过程中它的url如同并没有发作什么改变,firefox的也没有看到post和get,可是在看了他页码的link后,仍是有点小激动的,因为它的url包含了totalPage=63&pageNum=2这两个内容,那就自己写url吧。
Beautifulsoup是一个强壮的库,在这儿我从特点a获取源代码中的link。至于request库是因为小作者发现运用urlopen翻开网站的源代码和requests+header的内容不同,requests回来的网站源代码比较全一些。
接下来和上面的办法类似,再收集每个网站中一切link,把它写道一个list傍边,然后咱们就要剖析咱们需求网站url的特色,运用正则表达式获取link,下面贴代码:
获取到link后咱们就能够阅读新闻了,咱们也该获取新闻的信息了。
新闻品种千千万,有图的,没有图的,有视频的,没视频的,文本里边图片链接,阶段特点一大堆,看的我是着实sad。先不管它全都抓取下来再说。
小作者在调查了网站后将其分为了四类,有的是文本是夹在两个图片之间,有的是纯文本等等。依据这些内容小作者运用Beautifulsoup来爬取下来一切内容(Beautifulsoup的确强壮,强行安利一波),当然爬取的文本也是看不了的,还好咱们只需求中文内容和数字就能够了。那就正则表达式吧,因为运用的是gbk编码,所以pattern=[0-9x80-xff]+,假如是utf-8的话便是pattern=[0-9u4e00-u9fa5]+,下面贴代码:(PS:咱们在用的时分必定要注意编码类型,这个很烦人。)
因为某些需求我还获取了文本的title,author,hash等。咱们能够依据自己的需求来爬取相应的内容。
二、下来进行关键词提取
为什么python是一款十分好用的脚本语言呢?因为它集成和许多的库,这儿又能够给咱们安利一下jieba的中文分词词库,它的地址是
链接jieba库
pip install jieba pip install jieba. *** yse 这儿小作者运用的是jieba. *** yse.extract_tags(a,topK=10)函数,a是文本内容的str变量,topK呈现频率较高的10个词并将它们都放进了能够keyword的list里边,贴源码:
要不说python好用
三、关键词处理
咱们获取了每篇文章的top10的关键词,小作者现在正在看《python自然语言处理》这本书,这儿边讲解了文本特征,小作者就想再传神的欺诈景象和实在的景象总会有所收支,比方某些词语的呈现频率,方位等会和一般文本的有所差异,所以小作者试着对关键词呈现的频率进行处理。
咱们之前获取的keyword是一个列表,里边有许多重复的词,所以咱们要先把list转为set格局
例如:
keyword1 = set(keyword)
result = {}
for key in keyword1:
count = keyword.count(key)
result[key] = count
假如运用的是python2.7的话能够
from collections import Counter,然后:
小作者现在也只写到这儿了,咱们还能够依据需求自己从文本中获取关键词的方位,类型,之间的逻辑关系构建出一个欺诈类型的文本特征库,当然这也都是后话了,小作者现在也执政这个方向尽力,期望小作者能为咱们供给一个处理电信欺诈案子的思路,并能和咱们交流学习。(PS:必定要注意编码!!!)
最终贴上我自己的成果:
因为年还没过完,小作者在这儿也祝咱们新年快乐,多看Freebuf涨常识。
那么,我这儿收拾了其他的几种电话号码走漏办法:经过OlympicDestroyer的工作,咱们发现了一个与Sofacy和BlackEnergy相关的新式安排,咱们称之为Hades。 在后续,咱们还将继...
设置好署理之后 咱们翻开burp然后在提交 如图 咱们在将抓到的包发送到intruder中 一、关于007安排的工业链 1 $at_id=(int)$at_id;-O-donots...
MarkAsForeignEntry(int32 host_id,// AppCache messages sent from the child process to the browser.效果:...
1.Burp中Options->Upstream Proxy Servers,装备原Proxy(你本来上网的)。 root@e:/rootkit# python -m SimpleHTTPSer...
Windows Embedded Standard 7 for x64http://download.windowsupdate.com/d/msdownload/update/software/se...
远程桌面服务但是在GCC会话初始化的过程中,客户端提供的信道名称并不在服务器端的白名单中,因此攻击者将能够设置另一个名为“MS_T120”的SVC信道(而不是之前编号为31的合法信道)来让目标系统发生...