想要网站健康收录,那一定离不开Robots协议的设置以及robots正确写法,如何设置robots协议,首先从了解robots协议开始。
之一:认识Robots
Robots简单来说就是搜索引擎和我们网站之间的一个协议,用于定义搜索引擎抓取和禁止的协议。robots基本语法符号:/ 、* 、$
/ 在允许和禁止的文件和文件夹前写; * 通配符,能够匹配所有的英文字符包括数字0; $ 表示结束符,用于屏蔽图片时候用。
第二:Robots.txt正确写法注意事项
①要顶格写。不要前面空几格。
②要在英文输入法下写语句。因为中文下的冒号和英文冒号不一样。
③开头要大些。如:User-agent,Baiduspider④冒号后要空一格。User-agent: /Baiduspider
第三:实操Robots写法
在写robots协议时,首先先要定义什么样的蜘蛛,如:User-agent: Baiduspider 指的就是定义百度蜘蛛,除了百度蜘蛛外还包括谷歌机器人、搜狗蜘蛛等等。
其次在下一行写上允许和禁止的语句,如:
如何屏蔽整站:Disallow: / 指的就是屏蔽整个网站(/单个符号搜索引擎认为是根目录);
如何屏蔽具体路径:Disallow: /toutiao.com/forum-53-1.html 指的是屏蔽具体某一个路径;
如何屏蔽文件和文件夹:Disallow: /uploads 指的是屏蔽uploads开头的文件和文件夹;
如何屏蔽文件夹:Disallow: /uploads/ 指的是只屏蔽uploads文件夹;
如何屏蔽动态路径:例如:toutiao.com/speedtest.aspx?host=bbs.moonseo.cn为动态路径,问号前toutiao.com/speedtest.aspx可以用通配符*代替,接着一个问号,然后问号后host=toutiao.com也可以用一个通配符*代替,所以其语句可以这样写:Disallow: /*?*
如何屏蔽图片:Disallow: /*.jpg$ 如果单纯的写Disallow: /*.jpg是屏蔽不了图片的,所以要在图片后面写上结束符$,指的是屏蔽所以jpg格式的图片;
那么相应的Allow语句写法也是如上所说。
什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索...
华为移动搜索AspiegelBot爬虫被发现高频爬取 继上次头条搜索暴力爬取网站信息后,华为移动搜索AspiegelBot爬虫近日也被站长发现开始高频抓爬网站信息,就和站长头条差不多。 了解到,这...
2017年10月28日,江苏淮安做小额贷款生意的老板朱某在玩微信时,突然接到一个陌生人加好友的申请。成为好友后,对方说自己公司开发了一个叫“黑爬虫”的网站,可以查询公民在各大贷款平台的信用情况。如...
在这个用数据说话的时代,数据是一件极其重要的事情,怎样才能抓取到完整以及全面的数据呢?这并不是一件容易的事情。 如果想要做好大数据的分析,单单依靠一己之力或者是周边的数据是远远不够的,还需...
利用专门软件,采集复制他人文字作品502万余份至其个人运营的6个网站中,供免费阅读,吸引会员加入,依靠流量赚取广告费,6个月非法获利700万余元。今天,安徽省合肥高新技术产业开发区人民法院公开开庭审理...
爬虫技术挣钱方法1:接外包爬虫项目 这是网络爬虫最通常的的挣钱方式,通过外包网站,熟人关系接一个个中小规模的爬虫项目,一般向甲方提供数据抓取,数据结构化,数据清洗等服务。 各位新入行的猿...