电信欺诈猖狂盛行,成为国家的要点冲击目标,可是咱们身边亲朋好友上圈套的悲惨剧还在屡次发作。小作者考虑或许咱们能够从新闻中提取电信欺诈的特征信息,为家里的老一辈亲人提个醒,做到防患于为然。
小作者以某新闻网站为渠道,对电信欺诈的相关新闻进行了提取和剖析,企图从获取的信息中剖分出欺诈分子的小“套路”。(PS:一次写文章,期望能给咱们供给一个从新闻构建模型的思路,不足之处请各位大大们纠正)
一、开端收集了
获取信息当然要需求爬虫了,这是我运用的库:
小作者首要对某大型网站进行了阅读,在搜索栏中搜索了关于电信欺诈类的新闻报道,可是翻页过程中它的url如同并没有发作什么改变,firefox的也没有看到post和get,可是在看了他页码的link后,仍是有点小激动的,因为它的url包含了totalPage=63&pageNum=2这两个内容,那就自己写url吧。
Beautifulsoup是一个强壮的库,在这儿我从特点a获取源代码中的link。至于request库是因为小作者发现运用urlopen翻开网站的源代码和requests+header的内容不同,requests回来的网站源代码比较全一些。
接下来和上面的办法类似,再收集每个网站中一切link,把它写道一个list傍边,然后咱们就要剖析咱们需求网站url的特色,运用正则表达式获取link,下面贴代码:
获取到link后咱们就能够阅读新闻了,咱们也该获取新闻的信息了。
新闻品种千千万,有图的,没有图的,有视频的,没视频的,文本里边图片链接,阶段特点一大堆,看的我是着实sad。先不管它全都抓取下来再说。
小作者在调查了网站后将其分为了四类,有的是文本是夹在两个图片之间,有的是纯文本等等。依据这些内容小作者运用Beautifulsoup来爬取下来一切内容(Beautifulsoup的确强壮,强行安利一波),当然爬取的文本也是看不了的,还好咱们只需求中文内容和数字就能够了。那就正则表达式吧,因为运用的是gbk编码,所以pattern=[0-9x80-xff]+,假如是utf-8的话便是pattern=[0-9u4e00-u9fa5]+,下面贴代码:(PS:咱们在用的时分必定要注意编码类型,这个很烦人。)
因为某些需求我还获取了文本的title,author,hash等。咱们能够依据自己的需求来爬取相应的内容。
二、下来进行关键词提取
为什么python是一款十分好用的脚本语言呢?因为它集成和许多的库,这儿又能够给咱们安利一下jieba的中文分词词库,它的地址是
链接jieba库
pip install jieba pip install jieba. *** yse 这儿小作者运用的是jieba. *** yse.extract_tags(a,topK=10)函数,a是文本内容的str变量,topK呈现频率较高的10个词并将它们都放进了能够keyword的list里边,贴源码:
要不说python好用
三、关键词处理
咱们获取了每篇文章的top10的关键词,小作者现在正在看《python自然语言处理》这本书,这儿边讲解了文本特征,小作者就想再传神的欺诈景象和实在的景象总会有所收支,比方某些词语的呈现频率,方位等会和一般文本的有所差异,所以小作者试着对关键词呈现的频率进行处理。
咱们之前获取的keyword是一个列表,里边有许多重复的词,所以咱们要先把list转为set格局
例如:
keyword1 = set(keyword)
result = {}
for key in keyword1:
count = keyword.count(key)
result[key] = count
假如运用的是python2.7的话能够
from collections import Counter,然后:
小作者现在也只写到这儿了,咱们还能够依据需求自己从文本中获取关键词的方位,类型,之间的逻辑关系构建出一个欺诈类型的文本特征库,当然这也都是后话了,小作者现在也执政这个方向尽力,期望小作者能为咱们供给一个处理电信欺诈案子的思路,并能和咱们交流学习。(PS:必定要注意编码!!!)
最终贴上我自己的成果:
因为年还没过完,小作者在这儿也祝咱们新年快乐,多看Freebuf涨常识。
二、0day 缝隙和在野运用进犯为了供给上下文,实践上会将其分化成各个小框,咱们需求将它包装在所谓的视图中。 这些数据视图能够增加类型化的数组,而且能够运用许多不同类型的类型数组。 unsigned...
Starting Nmap 6.49BETA4 (https://nmap.org) at 2019-12-24 09:52 CST服务器保管在外地机房。...
BlackEnergy运用的变种RC4算法id=1172%0aorder%0aby%0a24 过错网站猎手 或许发掘鸡了。 b 集成了KillDisk组件python版别:默许状况下,payload_...
下一步,结构一句话木马; 3所以,咱们的定论是,普通群众不必过于忧虑无人机的安全问题,反而应该更注重越来越多的走入普通人家的智能设备的安全问题。 趁便提一下,这块咱们团队亦有注重...
在所有网络进犯活动中,APT进犯可以对职业、企业和安排形成更严峻的影响,而且愈加难于发现和防护,APT进犯的背面是APT安排和网络违法安排。 尽管DDoS进犯现已有必定的前史了,但现在许多公司依然无法...
id=1172%0aorder%0aby%0a23 正常 这儿有两个上传点,一个是ewebeditor的,别的一个是网站自带的,这儿咱们先测验一下打破网站自带的编辑器。 FuzzVul.checkG...