robots文件的认知及了解robots文件的基本写法使用规则

访客4年前黑客文章345

robots文件一般在根目录下,每一条记录通过空行分开,在该文件中可以使用#进行注释,支持模糊匹配,该文件是区分大小写的但不严格,通常以一行或多行User-agent开始,后面加上若干Disallow和Allow。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。Allow:该项的值用于描述希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的前缀。

值得提醒的是每个搜索引擎都协议文件的解读不一样,比如百度是支持”*”和”$”来模糊匹配url的。”*”匹配0或多个任意字符,”$”匹配行结束符。最重要的是这个语法是从上到下生效的,切记。

常见的用法在网上可以找到,这里就这儿工具说几个不常见的,但是有用的东西,你们可以举一反三。

屏蔽所jpg或png图片被抓取:Disallow:/*.jpg$ 或者Disallow:/*.png$

禁止抓取所有动态页面:

User-agent:*

Disallow:/*?*

只允许抓取html网页:

Allow:/*.html$

User-agent:*

Disallow:/

禁止抓取后台所有文件同时隐藏后台真实目录:

#就这儿注释:比如你后台目录名是htdoadmin

Disallow:/*doad*

同时这个文件也支持放入网站地图地址:

#就这儿工具注释:一般放在整体结尾

Sitemap: http://XXX.com/sitemap.xml

最后面填个坑吧:上面说这个文件语法是从上到下生效,你或者不明白。就这儿在此举例说明:

#就这儿工具注释:仅允许 Baiduspider访问您的网站

User-agent: Baiduspider

Allow:/

User-agent:*

Disallow:/

前2行允许了百度爬行,那么第3-4行即使屏蔽了所有引擎包括百度,依然是允许百度爬行的。你明白了吗?再补充一个例子吧:

User-agent:*

Allow:/nihao/qincai

Disallow:/nihao/

这个写法将会阻止爬行:http://baidu.com/nihao/abc或者http://baidu.com/nihao/

但不会阻止爬行:http://baidu.com/nihao/qincai123或者http://baidu.com/nihao/qincai/123

文章结尾问你一个问题,你可以迅速回答出来吗?请问robots.txt里出现disallow是对的吗?

相关文章

究竟是什么在影响人的新闻消费习惯?探索过滤气泡背后的真相

究竟是什么在影响人的新闻消费习惯?探索过滤气泡背后的真相

过滤气泡指的是算法基于我们过去的搜索历史,过滤掉与我们观点相左或我们不喜欢的信息,只提供我们想看的内容,从而造成人们认知的隔绝状态。 “过滤气泡”(filter bubbles),这几年最受内容业关...

若何找黑客服务-黑客技术解封微信账号(微信辅助别人解封为什么还要输

网络黑客为何要盗大家的号 用他人受欢迎他人了解你访问 (网页浏览他人知道吗) 什么样的人才华当网络黑客 不清楚一个人的一切信息内容怎么找(想要知道一个人的信息内容) 一个歌曲的mv...

止咳化痰的偏方及小妙招(用这7个小妙招和2类镇咳祛痰药)

止咳化痰的偏方及小妙招(用这7个小妙招和2类镇咳祛痰药)

楼上邻居的娃感冒了这么久,还是在咳嗽的魔爪下挣扎。要是不戴耳塞,整晚伴着咳咳咳咳咳咳的声音,根本睡不着。 这不,刚刚楼上又如约传来了咳嗽的声音,小蒲姐掐指一算,这孩子已经都快咳嗽一个礼拜了!! 可...

大雁养殖有销路吗?养殖大雁的利润有多少

大雁养殖有销路吗?养殖大雁的利润有多少

大雁又称野鹅,是鸭科雁属中的鸿雁、灰雁和豆雁等的总称。大雁躯体肥大,每只重3公斤,羽毛丰满,善于高飞,胸部、腿部肌肉发达,肉质厚实、味极鲜,是理想的高蛋白,低脂肪的保健食品。我国古代药典记载,雁肉性味...

虚拟内存(电脑虚拟内存设置为多少最合适?)

虚拟内存(电脑虚拟内存设置为多少最合适?)我们在使用电脑的过程中,偶尔会遇到提示 “虚拟内存不足,请增加你的虚拟内存”的情况,那虚拟内存是什么?该怎样增大虚拟内存呢?听跟大家说说!...

在淘宝黑客找丢失的手机-找黑客攻击wangle网站违法吗(黑客攻击wangle方法)

黑客为什么电脑桌面 怎么黑掉一个人的王者号(王者段位会掉) 如何有一部黑客手机 手机号被另一个微信绑定了(微信绑定另一个手机号) 网页游戏黑客怎么改数据 我被骗了1000有...