昨天晚上花了几个小时用Jsoup写了一个网站收集器,帮一个高中同学收集了一个工业信息门户上的芯片待售信息。网站上显现的数据多达60w+条, 我写的程序跑了7个小时只收集了一半,算是能够交差了。
这现已是我第2次写这种收集器了。之前在做 波菜网 的时分,写过一个更杂乱的。其时网站上线今后苦于没有原生态的内容,我就写了一个收集器从“ 百度身边 ”收集各大城市的饭馆和菜品信息,并经过google地图的接口获取饭馆的地理位置,然后转存到咱们自己的网站上。
我有必要供认,做这些事儿都是不光彩的,归于坐收渔利,弄不好还得背上法令责任。可是在国内这个互联网的环境下,这种小规模的数据收集想上升到法令层面去制止,仍是不切实际的。那么从一个网站的开发或许运营的视点,怎么来防备他人的歹意收集呢?怎么做到在防备的一起又不影响搜索引擎的蜘蛛的收集作业呢?
从我个人的收集经历来看,我觉得这种防护能够从两个方面着手。
服务器端的装备 。至少能够经过防火墙来屏蔽某些ip的高频率拜访,或许在web服务器设置规矩来制止要害页面被某些ip高频恳求。也能够先经过防火墙设置预警机制,一旦发现异常当即告诉web服务器采纳屏蔽办法。不论是专业的收集器仍是像我的这种纯代码等级的收集,最基本的原理便是仿照用户阅览网站行为,发送http恳求到网站的server,然后解析回来的成果。出于功率起见这种收集行为都有几个一起的特色。一是宣布恳求的ip地址比较固定,二是恳求的频率比较稳定,三是拜访的页面也比较固定。防火墙的设置能够根据前面两个特征,web服务器的过滤规矩能够根据后边两个特征。当然这些办法仅仅从物理层面的防护,放不了真实的高手。我在我的收集器里边完成的多线程收集,就会把收集频率用随机时刻来操控,也便是发送收集恳求的频率是随机的,有可能是3秒钟一次,有可能是2秒钟一次。别的假如我是黑客,我能够发起多个ip的肉机来发送恳求。总归一句话,服务器上的防护,防得了正人,防不了高档的小人,可是有总比没有好。 代码等级的防护 。收集器能够仿照阅览器大部分的行为,可是必定有仿照不到的当地。比如说带参数的ajax恳求。从我的经历来看,你至少能够在经过以下三种 *** 来优化你的代码,以避免歹意收集。不过话说回来,不论你采纳哪种防护办法,想防住真实的高手是不可能的,只要能防住98%的人就能够了。剩余的那2%,你假如发现你的数据被收集了,就采纳法令办法吧。前段时刻群众点评申述“食神摇一摇”抄袭数据,便是一个很好的比如。
关于一张网页,咱们往往期望它是结构杰出,内容明晰的,这样搜索引擎才干精确地认知它。 而反过来,又有一些情形,咱们不期望内容能被容易获取,比方说电商网站的交易额,教育网站的标题等。由于这些内容,往往是...
在2019年对csp研讨过一阵,发现能够经过其他的dom向存在CSP的dom注入javascript协议,来到达绕过CSP的安全防护。 众所周知,CSP(内容安全战略)有两种方法来设置,一种是经过浏览...
前语 这个标题的来历是@evilcos(余弦大大)在Github上共享的一个PPT,感兴趣的能够去他的repo下载。写这篇博客主要是想给自己最近业余时间学到的安全相关的常识做个总结,主要是关于网站常见...
本次测验nginx+php与apache+php哪种组合的核算性能及稳定性更佳 操作系统:Centos6.4 x64 硬件环境: 服务器IP 硬件装备 人物 192.168.1.2 4中心 8G...
360站长渠道中有一个东西是“官网直达”,经过恳求能够使你的网站在360搜索成果中加上“官网”字样的标识,百度也有这样的东西,不过是收费的,所以趁着360还没收费,有爱好的朋友可认为自己的网站恳求一...
电子商务、移动付出的遍及,顾客越来越少随身携带现金,人们玩笑道“小偷都快赋闲了”。但在互联网上,靠偷盗用户电子账户资金、虚拟财物的“网络小偷”却非常猖狂。 各种途径走漏的个人信息被加工、转卖,并用于电...