简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
你可以简单地想象:每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。
你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。
那么,像这样的爬虫技术一旦被用来作恶有多可怕呢?
正好在上周末,一位黑客盆友御风神秘兮兮地给我发来一份《中国爬虫图鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科技。比如他们搞了一个威胁情报系统,号称能探测到全世界的「爬虫」都在做什么。
我吹着口哨打开《图鉴》,但一分钟以后,我整个人都不好了。
我看到了另一个「平行世界」:
就在我们身边的 *** 上,已经密密麻麻爬满了各种 *** 爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。
看到最后,我发现这哪里是《中国爬虫图鉴》,这分明是一份《中国焦虑图鉴》。
我们今天要说的,就和这些 App 有关。
一、爬虫的「骚操作」
爬虫也分善恶。
像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为「善意爬虫」。
但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为「恶意爬虫」。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)
给你看一张图:
这张图里显示的,就是各行各业被爬「叨扰」的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。
接下来,中哥就给你科普一下里面的骚操作。
1、排名之一的是出行
出行行业中爬虫的占比更高(20.87%)。在出行的爬虫中,有 89.02% 的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
你还记得当年 12306 上线王珞丹和白百何的「史上最坑图片验证码」么?
这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单地机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。
没错。抢票软件也不是吃素的。它们在和铁总搞「对抗」。
有一种东西叫作「打码平台」,你可以了解一下。
打码平台雇用了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是「锅铲」,那么下次这张图片再出现的时候,系统就直接判断它是「锅铲」。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
你可能会问:为什么 12306 这么抠呢?它大方地让爬虫随意爬会死吗?
答:会死。
你知道每年过年之前,12306 被点成什么样了吗?公开数据是这么说的:「更高峰时 1 天内页面浏览量达 813.4 亿次,1 小时更高点击量 59.3 亿次,平均每秒 164.8 万次。」这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。
况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?
铁路被爬虫「点击」成这样已经够惨了,但它还有个难兄难弟,就是航空。
而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。
航空类爬虫的分布比例。
很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是 *** 丝穷 X 度假之首选。
为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。
本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。
据我所知,他们是这样玩的:
技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。
亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后 0.00001 秒之后,就帮你用你的名字预定了这张票。
「我是中间商,我就要赚差价!」这波骚操作,堪称完美。
2、排名第二的是社交
社交的爬虫重灾区,就是你们喜闻乐见的微博。
给你看张图:
这是爬虫经常光顾的微博地址。
我为了进行黑客技术研究而特地学习了Python这门语言,我敢断言在这个领域中的众多其他同行们也是如此。我曾经花费了大量的时间来寻找一种能够同时适用于黑客技术和逆向工程领域的编程语言,就在几年前,Python成为了黑客编程领域内显而易见的王者。而一个不尽人如意的事实是,到目前为止还没有一本真正意义上的参考手册,来指导你将Python应用于不同的黑客技术场景中。你往往需要游走于各大论坛的技术讨论帖子中或者各种工具手册中。有时为了使你的工具能够正确地运转起来,花费一番不小的功夫来阅读和调试源代码也是司空见惯的情况。而本书正是致力于填补这方面的空缺,将引领你经历一次“旋风”之旅——你将看到Python这门语言是如何被应用在各式各样的黑客技术与逆向工程场景中的。
本书将向你揭示隐藏在各种黑客工具背后的原理机制,其中包括:调试器、后门技术、Fuzzer、仿真器以及代码注入技术,本书将向你一 一演示如何驾驭这些技术工具。除了学到如何使用现有的基于Python的工具之外, 你还将学习如何使用Python构建自己的工具。需要有言在先的一点就是,这并不是一本大全式的参考手册!有大量使用Python编写的信息安全类工具未在此书中被提及。本书的信条是授之以渔,而非授之以鱼!你应当把从本书中所获得的技能灵活地应用于其他的场景中,根据自身的需求对你选择的其他Python工具进行调试,并做出扩展和定制。
阅读本书的方式不仅限于一种,如果你是个Python新手或者对于构建黑客工具尚感陌生,那么从前往后依次阅读对你来说是更好的选择,你将从最基本的理论开始,并在阅读本书的过程中编写相当数量的Python代码。当你阅读完本书时,你应当具备了自行解决各种黑客或逆向工程任务的能力。如果你对Python已有一定程度的了解,并且对Ctype库的使用驾轻就熟,那么不妨直接跳过第1章。对于那些行业浸沉已久的老手,相信你们可以在本书中来回穿梭自如,欢迎你们在日常工作中随时按需撷取本书中的代码片段或者相关章节。
本书在调试器相关的内容上花费了相当的篇幅,从第2章讲述调试器的基本原理开始,直至第5章介绍完Immunity Debugger为止。调试器对于任何一个真正的黑客而言都是至关重要的工具,因此我毫不吝惜笔墨来对它们进行广泛而全面的介绍。在之后的第6章和第7章中你将学到一些钩子和代码注入的技术,这些技术同样可以被调试器工具采用,作为控制程序流和操纵内存的手段。
本书接下来的焦点放在使用Fuzzer工具来攻破应用程序体系上。在第8章中,你将开始学习基本的Fuzzing技术理论,我们将构建自己的文件Fuzzing工具。第9章将向你演示如何驾驭强大的Fuzzing框架——Sulley来攻破一个现实世界中的FTP daemon程序。在第10章中,你将学习如何构建一个Fuzzer工具来攻击Windows驱动。
在第11章中,你将看到如何在IDA Pro中(一款流行的二进制静态分析工具)实现自动化执行静态分析任务。在第12章中,我们将介绍一款基于Python的仿真器——PyEmu,来为本书画上句号。
我试着使出现在本书中的代码尽量简洁,并在某些特定的地方加上了详细的注释以帮助你理解代码的本质。学习一门新的编程语言或者掌握一套陌生的函数库的过程少不了你自己的亲身实践,以及不断的自我纠正。
如何入门 python 爬虫
先自己答一个,期待牛人的回答。
自己学Python不久,列举自己做过的和知道的。
1. Python做爬虫很方便,有现成的库。 我在学习python的过程中也遇到过一个非常简单的例子,代码:python/primer/20/Cralwer.py at master · xxg1413/python · GitHub 。好像有开源的项目叫什么supercrawler,具体可以看看。
2.Python做游戏。Pygame还是不错的,但只适合做小游戏。用Pygame写个植物大战僵尸还是可以的。推荐教程 用Python和Pygame写游戏。Python在游戏服务器方面也有应用。EVE这种游戏都大量用Python。
3.Python作为黑客之一语言,在黑客领域的应用就不多说了。
4.Python做网站,有几个web框架 WebFrameworks。 用得最多的是Django。
5......各方面都有,什么推荐系统,都是用python,在此就不一一列举了。
它设计清晰,文档齐全,合适初学者入门。它是一门很好的入门语言,并且不仅仅只是个玩具;它非常强大、灵活,也适合做大型项目Java也是好的入门语言。它比Python难得多,但是生成的代码速度也快得多。它同时也是一种优秀的计算机语言,不止是用来入门。 但是注意,如果你只会一两门语言,你将不会达到黑客所要求的技术水平,甚至也不能达到一个程序员的水平——你需要学会如何以抽象的方式思考编程问题,独立于任何语言。要做一名真正的黑客,你需要学会在几天内通过一些手册,结合你现在所知,迅速掌握一门新语言。这意味着你应该学会几种截然不同的语言。 如果要做一些重要的编程工作,你将不得不学习C语言,Unix的核心语言。 C++与C非常其他类似;如果你了解其中一种,学习另一种应该不难。但这两种都不适合编程入门者学习。而且事实上,你越避免用C编程,你的工作效率会越高。 C非常有效率,节约你的机器资源。不幸的是,C的高效是通过你手动做很多底层的管理(如内存)来达到的。底层代码都是复杂极易出现bug的,会使你花极多的时间调试。如今的机器速度如此之快,这通常是得不偿失——比较明智的做法是使用一种运行较慢、较低效率,但大幅节省你的时间的语言。因此,选择Python。 其他对黑客而言比较重要的语言包括 Perl和 LISP。 Perl实用,值得一学;它被广泛用于动态网页和系统管理,因此即便你从不用Perl写程序,至少也应该学会看。许多人使用Perl的理由和我建议你使用Python的理由一样,都是为了避免用C完成那些不需要C高效率的工作。你会需要理解那些工作的代码的。 LISP值得学习的理由不同——最终掌握了它时你会得到丰富的启迪和经验。这些经验会使你在以后的日子里成为一个更好的程序员,即使你实际上很少使用LISP本身。 当然,实际上你更好五种都会(Python,Java,C/C++,Perl和LISP)。除了是最重要的黑客语言外,它们还代表了截然不同的编程思路和 *** ,每种都会让你受益非浅。 这里我无法给你完完全全的指导教会你如何编程——这是个复杂的技能。但我可以告诉你,书本和上课也不能作到(更好的黑客中,有许多,也许 几乎都是自学成材的)。你可以从书本上学到语言的特点——只是一些皮毛,但要使书面知识成为自身技能只能通过实践和虚心向他人学习。因此要作到 (一)读代码及(二)写代码。答案补充 补充: 黑客不是那么好当的, 要学的东西很多, 每天都有新的东西出来
一般来说不需要
其实爬虫这个技能,和一般的技能非常不一样,一般的技能比较稳定,但爬虫就属于一个人技术的边缘技术,因为难度不大,但是细节特别多,而且很多公司对爬虫的使用只是一两次,不会专心培养爬虫工程师
人工智能更不需要爬虫技术,虽然人工智能需要数据,但是如果你靠爬虫来积累数据,那么你的工作基本上都会花在数据处理上面,你就变成了一个纯粹的数据分析师
呵呵,
其实黑客嘛。
要学什么语言?
职业黑客 要精通所有语言。
专攻一门 就需要那门的技术。
也可以不需要学习语言 就可以当黑客。
只需要知道脚本。 用别人的工具。
那就成了。
呵呵。
我黑客技术 都是自学的 你也自学吧 挺好学的。
现在我能 入侵服务器呀,黑站呀,拿WESHELL呀,等等之类的。盗号就不用说了 。 呵呵
“中高艺模特预定-【尤程悦】” 男模特如何走台步?伴游实施方案-伴游地址:全世界世界各国。各线大城市。??高档免费看图预定有盆友想找商务的信息内容,“”要是大家上就可以很轻轻松松地寻找这种信息内容,假...
怎么定位手机位置 手机丢了怎么找回来 很遗憾,我的手机丢了。找到它是极其紧迫的。因此,建议手机用户在紧急情况下丢失手机前必须做好充分的准备。使用手机中的相关软件可以找到丢失手机的位置。 方法/步...
一、概述 由于WordPress处理权限的方式存在缺陷,可能会导致WordPress插件中出现权限提升的问题。这一问题直接影响WooCommerce插件,这是一个最受欢迎的电子商务插件,其安装量已经...
本文导读目录: 1、电影黑客帝国中,蓝色药丸是否代表感觉良好的幻觉世界,红色药丸代表现实? 2、《黑客帝国》中的红蓝药丸的作用是怎样的? 3、假如你是《黑客帝国》里的尼欧,你会选择什么颜色的药...
近日,广东东莞一男子戴10多个口罩出街被拦下。 民警拍下了他取口罩的全程:一层一层又一层…… 民警提示:现在口罩急缺,不需要戴这么多口罩。 男子戴十多个口罩此前,有专家表示,只要...
现如今,想必很多人都想要一夜暴富,也想要通过赌博的方式能够让自己获得更多的金钱,但是往往赌博也会让自己输的越多。当冷静下来想的时候,就会发现自己可能被骗了,而被骗的金额往往是自己难以偿还的,有的可能是...