最近在写代码,涉及了web爬取链接的方面,在百度过程中了解到了这篇文章:superSpider,突然就好奇平时常见的爬虫 工具和扫描器里的爬虫模块能力如何,所以来测试下。
主要测试1个自己手写的瞎眼爬虫,还有crawlergo、rad、burpsuite pro v202012、awvs 2019
文章里推荐的http://demo.aisec.cn/demo/站点打不开了所以就使用awvs的了;
测试站点:http://testphp.vulnweb.com
只抓取a标签下的href和script标签下的src;
结果:
46个链接,夹杂着很多其他域名的链接,有很多带参数的链接
在官方示例代码上加了几行
结果:
48条
清洗后:
结果:42条 , 由于存在get和post的区别,清洗后去重为39条
爬取较耗费时间,截图的时候是49个,但是随着时间增加数量还在上升,在后面回看的时候数量已经一百多了
扫描相对burp很快,不知道是不是自家网站缘故,扫描结果数量405,但是很多都是Mod_Rewrite模块下的
由上所有数据可以看出,awvs和burpsuite爬取的数据量是属于最多的一层的,crawlergo和rad和我手写的爬虫好像是一层。。仅数据量来说。。
再看下数据质量,这里我主要看手写的爬虫(下面称为基准),和rad 、crawlergo
首先,我们先把基准数据和rad的数据比较
先取交集,
存在17个交集数据,各自减去交集后的数据,排序,对比
细心查看的话会发现中间那栏基准数据基本path基本都能在左边交集栏查看到,而右侧rad栏黄色部分基本都是左侧即基准数据里没有的。本人查看了前面的burpsuite和awvs报告,他们多出的部分基本都是目录下的,这边基准爬虫和rad里都存在了这个目录。
再看下基准与crawlergo比较
存在18个交集
依然是右侧有的左边基本都没有,但是左右那几个details目录右侧也没有发现
看下crawlergo与rad的比较
惊人的相似-_- ,
几款工具都扫描出了手写代码里没扫除的目录、路径,其实力都是蛮强的。
其中,crawlergo和rad扫描的数量和质量类似,burpsuite和awvs的扫描结果类似,都是数量最多,但是burpsuite的扫描速度个人感觉有点慢
当然,数量多少的问题是由于burosuite和awvs存在系列安全扫描及其他用途的缘由,对于纯粹只为获取url的话还是得靠crawlergo和rad方便些。
crawlergo和rad的区别存在crawlergo返回的数据中包含了所有headers,包括其自动填充的表单数据,rad返回的只有请求 *** +url,如Get http://xxx
最后自己做了一张表,仅代表自己观点,也不一定准确
本文目录一览: 1、如何做一个合格的黑客? 2、怎样才能把自己变为一名黑客? 3、怎样才算一名合格的黑客? 4、如何自学成为一名黑客? 5、成为黑客的基础是什么? 如何做一个合格的黑...
我们都知道,做SEO对于企业来讲,难度越来越大,不少SEO优化人员都表示,我们太难了!百度排名前十的,不是行业网站就是B2B网站,再不然就是行业龙头老大的官网,对于我们这些兢兢业业靠内容来优化的SEO...
大家最近应该都被新电脑公司刷屏了吧? 其实新电脑公司系统就是在原本的电脑公司系统上作进一步的优化,更加贴合用户的使用习惯,让我们在使用电脑的过程中轻松掌握自己电脑的各种信息。如果大家想要用这个操作...
都是默许数据库地址我能想到的有这样三种处理办法:要黑掉无人机,榜首步要做的是信息搜集。 咱们先来了解一下精灵3代所运用的射频硬件。 auto eth0-r: 接连端口扫描 –...
黑客是如何过去个人信息的(黑客买个人信息)(tiechemo.com)一直致力于黑客(HACK)技术、黑客QQ群、信息安全、web安全、渗透运维、黑客工具、找黑客、黑客联系方式、24小时在线网络黑客、...
在网上收费标准查定位是真是假(在网上查定位的手机软件可靠吗) 坚信大伙儿针对iPhone也不生疏。它是美国苹果公司产品研发及市场销售的智能机,运作自主研发的iOS系统软件(根据macOS、Darwi...