robots文件的认知及了解robots文件的基本写法使用规则

访客3年前黑客文章313

robots文件一般在根目录下,每一条记录通过空行分开,在该文件中可以使用#进行注释,支持模糊匹配,该文件是区分大小写的但不严格,通常以一行或多行User-agent开始,后面加上若干Disallow和Allow。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。Allow:该项的值用于描述希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的前缀。

值得提醒的是每个搜索引擎都协议文件的解读不一样,比如百度是支持”*”和”$”来模糊匹配url的。”*”匹配0或多个任意字符,”$”匹配行结束符。最重要的是这个语法是从上到下生效的,切记。

常见的用法在网上可以找到,这里就这儿工具说几个不常见的,但是有用的东西,你们可以举一反三。

屏蔽所jpg或png图片被抓取:Disallow:/*.jpg$ 或者Disallow:/*.png$

禁止抓取所有动态页面:

User-agent:*

Disallow:/*?*

只允许抓取html网页:

Allow:/*.html$

User-agent:*

Disallow:/

禁止抓取后台所有文件同时隐藏后台真实目录:

#就这儿注释:比如你后台目录名是htdoadmin

Disallow:/*doad*

同时这个文件也支持放入网站地图地址:

#就这儿工具注释:一般放在整体结尾

Sitemap: http://XXX.com/sitemap.xml

最后面填个坑吧:上面说这个文件语法是从上到下生效,你或者不明白。就这儿在此举例说明:

#就这儿工具注释:仅允许 Baiduspider访问您的网站

User-agent: Baiduspider

Allow:/

User-agent:*

Disallow:/

前2行允许了百度爬行,那么第3-4行即使屏蔽了所有引擎包括百度,依然是允许百度爬行的。你明白了吗?再补充一个例子吧:

User-agent:*

Allow:/nihao/qincai

Disallow:/nihao/

这个写法将会阻止爬行:http://baidu.com/nihao/abc或者http://baidu.com/nihao/

但不会阻止爬行:http://baidu.com/nihao/qincai123或者http://baidu.com/nihao/qincai/123

文章结尾问你一个问题,你可以迅速回答出来吗?请问robots.txt里出现disallow是对的吗?

相关文章

不用密码也可以查询别人微信聊天记录,这么简单大家还不知道吗?

不用密码也可以查询别人微信聊天记录,这么简单大家还不知道吗? 专业盗取微信密码,开房查询,通话记录查询,查询微信聊天记录,非常靠谱!倘若时间回到四年前,我根本无法想象自己会对微信产生依赖。记得在不少...

EMS国际快递(我的快递到哪里了)

  寄快递早已变成大家日常日常生活普遍的事儿。有的人依然不清楚ems是什么。今日,大家将详细介绍什么叫加急快递,哪样快递公司更强。   第一名:中通快递   国内物流企业较大 的特性便是速度更快,...

购买了域名之后怎么做网站(购买完域名后怎么做网站)

购买了域名之后怎么做网站(购买完域名后怎么做网站)

本文目录一览: 1、有域名怎么做网页 2、有域名了怎么建立网站 3、买域名后,怎么做网站? 4、购买域名后该怎么建网站 5、购买域名后该怎么建网站? 6、注册域名后怎么建网站 有...

微信自动加好友软件(微信添加好友没显示)

大家都知道,微信是一个社交媒体专用工具,被许多 盆友应用。它能够帮你联络你最想联络的人,还能够帮你存零钱。它是日常生活不能缺乏的专用工具之一。如果你担忧的情况下,你确实期待有些人聆听你的心里话吗?...

苹果12怎么调出电量百分比

可以用小组件来表明电量百分比。1、长按桌面上空白。2、进到编写方式后点一下左上方的减号。3、搜索网页小组件。4、键入充电电池。5、点一下发生的充电电池小组件。6、挑选加上小组件就可以。 知名品牌型号规...

办信用卡需要什么条件(教你怎么申请高额度信

办信用卡需要什么条件(教你怎么申请高额度信

很多人想要大额度信用卡,希望办下来的信用卡初始额度就在5万以上。大额度信用卡并不那么容易办理,尤其是5万额度以上的信用卡。这是因为通常金普卡的额度顶格了才5万,只有白金及以上级别的信用卡额度才能在...