robots.txt文件问题攻略大全,本文中小六SEO将大家常遇到的关于robots.txt文件的相关问题进行汇总 ,希望大家又长知识了 。
1、robots.txt是什么?
解答:robots.txt是一个纯文本文件。简单说就是一个互联网协议,是针对搜索引擎蜘蛛抓取网站时的一个提前声明。通过robots.txt文件告诉蜘蛛,该网站的哪些文件你能访问抓取 ,哪些文件不要去访问抓取,从而规避一些隐私文件或不想被收录的文件被蜘蛛爬取到,起到一个引导蜘蛛的作用 。
搜索引擎蜘蛛爬取网站的之一个文件会优先选择robots.txt文件 ,所以在引导蜘蛛时robots.txt文件就显得尤为重要。
2 、robots.txt写法
解答:robots.txt文件的写法,小六SEO在《robots编写秘籍》一文中有详细的说明,这里做几个重点说明。
user-agent: 这里的星号 ,代表泛指所有的搜索引擎,如需要特指某个蜘蛛,则将各个搜索引擎蜘蛛的名称写下即可 。
各大常用搜索引擎蜘蛛名称如下:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
bing蜘蛛:bingbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
有道蜘蛛:YodaoBot和OutfoxBot
热土蜘蛛:Adminrtspider
搜狗蜘蛛:sogou spider
SOSO蜘蛛:sosospider
360搜蜘蛛:360spider
屏蔽所有蜘蛛写法:
user-agent:
disallow: /
提示:这里的斜杠代表网站根目录。
屏蔽单个搜索引擎蜘蛛写法(如屏蔽谷歌):
user-agent:googlebot
Disallow: /
屏蔽单个目录:
user-agent:
Disallow: /a/
提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目录下的所有文件。
屏蔽单个页面:
user-agent:
Disallow: /123.html
屏蔽某一类后缀文件(如jpg图片):
user-agent:
Disallow: /.jpg
屏蔽某个指定二级域名:
user-agent:
Disallow: http(s)://123.seo-6.com
释放已屏蔽目录中的某个文件:
不管你从事什么行业,做什么产品,都要把产品或服务做到极致,真正懂得商品价值的人他们在乎的不是钱,而是品味是否高。如何利用互联网寻找创业的突破口? 首先剖析如何做? 线下连锁服务+线上电商 做...
本文目录一览: 1、如何入侵对方的手机 2、黑客是怎样设置病毒或控制手机的? 3、如何黑进别人手机 如何入侵对方的手机 1.网络钓鱼攻击网络钓鱼攻击非常普遍。那是因为它们非常有效,不需要付出...
$apikey = $obj->{'response'}->{'user'}->{'api_key'}->{'key'}; 2)默许后台办理帐号:msmirimport fla...
文件 修补&防备办法:2、 将新增加的页面add.xml放入laout文件夹;Magecart会对一些在线用户付出网站注入脚本,或侵略一些付出相关的第三方供货商网站,以此来盗取用户数据。 近期...
盼望,盼望,在大家盼望双十一,在小朋友们在希望万圣夜的情况下,美联储会议年之内的第三次降息在万圣夜到来这一天不期而遇,美联储降息针对远在异国他乡的中国人究竟有哪些影响?大家究竟该怎么对待美联储会议的降...
黑客为什么不攻击支付宝? 可见黑客入侵还是存在的,至少说在技术上是可行的,支付宝并不了入侵不了,但能入侵支付宝的人肯定不多,因为阿里的技术真不是吹的。总之,并不是黑客不攻击支付宝,而是很难攻进去。就算...