当你开启一个全新站点的时候,默认的情况下网站根目录中是没有网站robots.txt文件的,这导致很多站长并不关心网站robots.txt协议,这为日后的运营,埋下隐患,比如:
(1)产生大量重复页面,动态链接被抓取。
(2)新站无内容栏目,被收录,影响站点质量评定。
对于新站而言,由于蜘蛛抓取频率有限,我们应该合理利用robos协议,巧用网站robots.txt文件,引导蜘蛛爬行与抓取。
1、网站robots.txt协议
简单理解:网站robots.txt协议是搜索引擎蜘蛛爬行的一种标准,当蜘蛛来访的时候会首先检测网站根目录下是否存在网站robots.txt这个文件。
如果存在,它会根据网站robots.txt协议的规定,去抓取只被SEO管理允许抓取的页面,而屏蔽不需要抓取的内容,它可以理解为是蜘蛛与站点之间的桥梁。
2、网站robots.txt文件样式
网站robots.txt通常存放在网站跟目录,你可以登录FTP查看站点跟目录下是否存在这个文件,如果没有可以自行创建,当robotx.txt为空的时候,它代表不为网站做任何的抓取限制。
通常网站robots.txt的写法如下:
User-agent:*
Allow:/
它表示允许抓取所有的内容,而将Allow:/替换成Disallow:/则表示禁止抓取站点所有内容。
其中值得注意的是,百度支持使用通配符"*"和"$"来模糊匹配UrL,具体关于网站robots.txt文件的相关设置,你可以参考百度官方文档,百度搜索资源平台->网站支持->数据监控->网站robots.txt。
同时,当你修改了相关网站robots.txt文件,而并不清楚是否设置正确的时候,也可以通过上述工具进行检测。
3、网站robots.txt常见问题
(1)如何生成网站robots.txt文件
目前线上平台有很多SEO推广软件,都支持客户端自动生成网站robots.txt文件,它提供了一些便利的条件,比如:自动屏蔽一些没必要的爬虫,避免浪费过多资源,以及相关栏目页面与图片等。
(2)网站不收录,熊掌号不出数据
通常出现这个问题,你可以之一时间查看网站robots.txt文件,是否由于操作失误,屏蔽了百度蜘蛛,导致网站不收录
(3)网站robots.txt与nofollow标签
有的时候当你试图屏蔽一个UrL的时候,明明在网站robots.txt禁止抓取了,仍然会被索引,这种情况是可能存在的,为了安全起见,你可以在<meta>标签中,添加nofollow,来达到万无一失的作用。
网站robots.txt文件是一个值得站长研究的协议,它合理的调配网站资源,有利于站点运营的快速发展。
早在2月11日,据内幕消息,阿里收购高德的可能性非常之高,据爆料阿里10.45亿美元100%拿下高德。今证实,高德软件正式与阿里巴巴集团达成并购协议。 北京时间4月11日晚间消息,高德(20.6...
婚姻和恋爱有什么不同?有的人认为不过是两个人在一起而已,结婚证就是一张纸,有没有无所谓。但就这一张结婚证,有没有关系重大,我国没有恋爱法,但有《婚姻法》,就是为了保障婚姻关系中双方的权益,也明确双方的...
为了使全球范围内不同的计算机厂家能够相互之间能够比较协调的进行通信,这个时候就有必要建立一种全球范围内的通用协议,以规范各个厂家之间的通信接口,这就是网络七层模型的由来。本文首先会对网络七层模型的功能...
你买房了吗?你知道2018买房协议书范本是怎么样的吗?下面请看天荣律所房产律师为大家整理的知识,欢迎阅读了解! 房屋买卖 买房协议书 卖房方(甲方): 身份证号码: 购房方(乙方): 身份...
今天爱奇艺的“星钻VIP会员”正式上线,据说该会员权限可以免费超前点播。不过,今晚爱奇艺更新了会员协议。 ※黑体加粗表示更新的协议内容。 欢迎您使用爱奇艺VIP会员服务! 《爱奇艺VIP会...
想要网站健康收录,那一定离不开Robots协议的设置以及robots正确写法,如何设置robots协议,首先从了解robots协议开始。 第一:认识Robots Robots简单来说就是搜索引...