robots文件的认知及了解robots文件的基本写法使用规则

访客4年前黑客文章355

robots文件一般在根目录下,每一条记录通过空行分开,在该文件中可以使用#进行注释,支持模糊匹配,该文件是区分大小写的但不严格,通常以一行或多行User-agent开始,后面加上若干Disallow和Allow。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。Allow:该项的值用于描述希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的前缀。

值得提醒的是每个搜索引擎都协议文件的解读不一样,比如百度是支持”*”和”$”来模糊匹配url的。”*”匹配0或多个任意字符,”$”匹配行结束符。最重要的是这个语法是从上到下生效的,切记。

常见的用法在网上可以找到,这里就这儿工具说几个不常见的,但是有用的东西,你们可以举一反三。

屏蔽所jpg或png图片被抓取:Disallow:/*.jpg$ 或者Disallow:/*.png$

禁止抓取所有动态页面:

User-agent:*

Disallow:/*?*

只允许抓取html网页:

Allow:/*.html$

User-agent:*

Disallow:/

禁止抓取后台所有文件同时隐藏后台真实目录:

#就这儿注释:比如你后台目录名是htdoadmin

Disallow:/*doad*

同时这个文件也支持放入网站地图地址:

#就这儿工具注释:一般放在整体结尾

Sitemap: http://XXX.com/sitemap.xml

最后面填个坑吧:上面说这个文件语法是从上到下生效,你或者不明白。就这儿在此举例说明:

#就这儿工具注释:仅允许 Baiduspider访问您的网站

User-agent: Baiduspider

Allow:/

User-agent:*

Disallow:/

前2行允许了百度爬行,那么第3-4行即使屏蔽了所有引擎包括百度,依然是允许百度爬行的。你明白了吗?再补充一个例子吧:

User-agent:*

Allow:/nihao/qincai

Disallow:/nihao/

这个写法将会阻止爬行:http://baidu.com/nihao/abc或者http://baidu.com/nihao/

但不会阻止爬行:http://baidu.com/nihao/qincai123或者http://baidu.com/nihao/qincai/123

文章结尾问你一个问题,你可以迅速回答出来吗?请问robots.txt里出现disallow是对的吗?

相关文章

心肺复苏和急救知识纳入学校健康教育-教育部明确将心肺复苏纳入学生考试内容

心肺复苏和急救知识纳入学校健康教育-教育部明确将心肺复苏纳入学生考试内容

近日,根据教育部最新消息得知,心肺复苏和急救知识纳入学校健康教育,其实早在今年8月份教育部就发布了这个消息,这次教育部是明确将心肺复苏纳入学生考试内容,因为普及心肺复苏是一件非常重要的事情,可以防止很...

教你怎么调取他人微信聊天记录(窃取别人微信

城镇化率快速提升、人们生活工作节奏的提速,让夜间消费越来越成为国民日常生活的重要组成部分,同时也成为开拓居民消费增长新动能的重要路径。 夜经济消费,总体来说离不开餐饮和娱乐休闲两大类,其中以吃喝...

北京招募商务陪伴儿全国高端商务陪伴儿微博施枫

北京招募商务陪伴小学妹全国高端商务陪伴小学妹微博【施枫】,上海是一座成功人士的聚集地,对商业模特的需求也是比较大的,今天明星商务分享模特访梦,年龄北京 女 26,婚姻:保密,学历:高中,气质:北京招募...

怎么监控才能知道对方的微信聊天内容

. 在宝宝已经一岁多的时候,是时候开始训练自主如厕了。所以给宝宝准备了一个简易的坐便器,很重要,那么宝宝坐便器怎么选择 宝宝坐便器怎么使用呢,下面友谊长存的小编就来为大家介绍。 宝宝坐便器怎么选...

央视315曝光:萨摩耶金服涉嫌收集用户个人信息

央视315曝光:萨摩耶金服涉嫌收集用户个人信息

(原标题:高科技灰色产业链:萨摩耶金服涉嫌收集用户个人信息)这款由声牙科技有限公司研发的“探针盒子”,当用户手机无线局域网处于打开状态时,会向周围发出寻找无线网络的信号,探针盒子发现这个信号后,就能迅...

房产知识:房屋产权变更税费是多少请问有哪位

相信现在有很多的朋友们对于房屋产权变更税费是多少请问有哪位网友知道的求解答!谢谢!都想要了解吧,那么今天小编就来给大家针对房屋产权变更税费是多少请问有哪位网友知道的求解答!谢谢!进行一个介绍吧,希望小...