robots文件一般在根目录下,每一条记录通过空行分开,在该文件中可以使用#进行注释,支持模糊匹配,该文件是区分大小写的但不严格,通常以一行或多行User-agent开始,后面加上若干Disallow和Allow。
Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。Allow:该项的值用于描述希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的前缀。
值得提醒的是每个搜索引擎都协议文件的解读不一样,比如百度是支持”*”和”$”来模糊匹配url的。”*”匹配0或多个任意字符,”$”匹配行结束符。最重要的是这个语法是从上到下生效的,切记。
常见的用法在网上可以找到,这里就这儿工具说几个不常见的,但是有用的东西,你们可以举一反三。
屏蔽所jpg或png图片被抓取:Disallow:/*.jpg$ 或者Disallow:/*.png$
禁止抓取所有动态页面:
User-agent:*
Disallow:/*?*
只允许抓取html网页:
Allow:/*.html$
User-agent:*
Disallow:/
禁止抓取后台所有文件同时隐藏后台真实目录:
#就这儿注释:比如你后台目录名是htdoadmin
Disallow:/*doad*
同时这个文件也支持放入网站地图地址:
#就这儿工具注释:一般放在整体结尾
Sitemap: http://XXX.com/sitemap.xml
最后面填个坑吧:上面说这个文件语法是从上到下生效,你或者不明白。就这儿在此举例说明:
#就这儿工具注释:仅允许 Baiduspider访问您的网站
User-agent: Baiduspider
Allow:/
User-agent:*
Disallow:/
前2行允许了百度爬行,那么第3-4行即使屏蔽了所有引擎包括百度,依然是允许百度爬行的。你明白了吗?再补充一个例子吧:
User-agent:*
Allow:/nihao/qincai
Disallow:/nihao/
这个写法将会阻止爬行:http://baidu.com/nihao/abc或者http://baidu.com/nihao/
但不会阻止爬行:http://baidu.com/nihao/qincai123或者http://baidu.com/nihao/qincai/123
文章结尾问你一个问题,你可以迅速回答出来吗?请问robots.txt里出现disallow是对的吗?
我们在DIY电脑时,首先考虑的就是CPU,性能情况需要了解清楚,价格体系以及购买途径也要知道一二,这样我们才好判断怎样的CPU才适合自己,够用且实用更为重要。 CPU的性能非常简单,只需要看这样...
中新网客户端4月9日电 (张尼)应急管理部副部长周学文9日在国新办发布会上介绍,今年春防以来,国家森防指和各地采取一系列防火措施,同时受疫情影响人们外出活动大量减少,一定程度上减轻了人为火灾的压力。据...
互联网、移动互联网最大的特质是实现“人与物、人与信息、人与人”之间的“连接”。在连接中思考战略的变化,在连接中进化营销的功能,在连接中拥抱新的科技工具与数据思维,是摆在每个CEO和营销高管大脑中的问题...
在我国任何的公司企业或者小到杂货铺都是需要有营业执照才可以营业的,要进行营业执照的办理需要一定的费用。所以下面是找法网小编为大家带来营业执照办理多少钱的相关知识。希望能够帮助大家解决相应的问题,当...
暴利产品代发货(盘点10款将在2020年大火的代发货产品) 在线选品是一件棘手的事情,尤其是为来年寻找有创收潜力的代发货产品时。 市面上有太多良莠不一的供应商,且流行趋势也在不断更替。代发货卖家该...
上海市帅哥按摩,精英团队的服务和水平全是一流的 上海市帅哥按摩,精英团队的服务和水平全是一流的 我们是一家精油spa女性会所全天无暑假365天24小时出示技术专业印尼巴厘岛式spa奢享订制服...