百度蜘蛛抓取规则

访客4年前黑客文章556

相信大家对百度蜘蛛这个词都不陌生吧,记得我在之一次听到百度蜘蛛这个词的时候,是在11年初,那时候百度蜘蛛并没有如今的人性化,那时候的百度蜘蛛抓取释放几乎么有任何规则。但对现在的百度蜘蛛而言,那时候等于是个幼蜘,现在的百度蜘蛛已经兵强马壮,下面我们来了解一下百度蜘蛛的规则吧。

聪明的蜘蛛

百度蜘蛛是什么

百度蜘蛛是百度搜索引擎的一个自动程序,它通过 *** 来搜集 *** 上网站的内容,其中包括:文字、图片、视频等,然后进行分析整理出数据库,最终能够在百度搜索引擎中展现您的文字、图片、视频等,之所以取名叫做百度蜘蛛,是因为此程序有类似于蜘蛛的功能,补下天罗地网,能够搜集到许多 *** 上的信息。

常见的百度蜘蛛IP

当你网站有人访问或者有机器访问,那就一定会出现一个IP,通常情况下,我们的服务器都会记录这些IP信息,下面是网友提供的常见的百度蜘蛛IP。

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

121.14.89.*这个ip段作为度过新站考察期。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。

220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

百度蜘蛛抓取规则

前面说到,百度蜘蛛的人性化,那么百度蜘蛛就一定有自己的抓取规章,当遇到一些不适合抓取或空白页面,那么百度搜索引擎将会直接取消抓取,下面来看看百度是如何抓取我们的页面的。

1、访问robots

当蜘蛛来到你的网站之一眼不看别的,只看robots文件,如果你的robots文件禁止了百度蜘蛛抓取,那么百度蜘蛛会直接离开你的网站,不会对你网站进行抓取。当然如果你的robos文件有网站地图,那么搜索引擎会直接通过robots来抓取你的网站地图文件,更便捷的让蜘蛛知道你的所有需要抓取收录的页面。

2、访问首页

如果你的robots文件没有禁止你网站或者你没有robots文件,那么搜索引擎会之一时间访问你的主页,同时确定你的首选域,对于你网站的url分析。分析完以后,会开始对你网站的首页进行下载抓取,如遇到首页空白或者首页内容不适合搜索引擎的抓取(如:视频、flash、下拉内容过多等),那么很难以让搜索引擎抓取收录。

3、链接引导访问

百度蜘蛛可以更具你首页的链接来对下一个页面进行抓取,比如首页出现导航、文章等,那么蜘蛛就可以根据这些超链接进行抓取,这就是我们的文章需要设置内链的原因。同时百度蜘蛛也可以根据你网站出现的外链来进行抓取站外的网站,这也是我们交换友情链接的主要原因之一。

百度蜘蛛抓取和收录的关系

很多人抱怨自己的网站几个月没有收录或者是收录量太少,其实大部分的原因都是因为抓取问题,一般的情况下,只要一个网站具备内容,都会有被收录的可能。那么什么样的页面蜘蛛才不会抓取或收录呢。

1、打不开的页面

如果一个页面出现打不开的现象,用户无法访问,百度蜘蛛自然也无法抓取,当百度蜘蛛通过链接来到你的站点,发现无法打开,那自然不会被抓取更别说收录了。

2、空白的页面

空白的页面并不是说404错误页面,而是一些没有内容的页面,这里太多SEOER没有关注到这些空白页面,这种空白页面包括(登陆注册页、无内容的列表页、联系我们、关于我们等)。

3、重复的页面

在百度蜘蛛抓取后,百度蜘蛛会将你的页面进行 *** 对比,当对比到你的内容与 *** 上的内容出现的重复读过高,那么搜索引擎将会判断,你的内容为抄袭或转载,这种页面将会列入星火计划之中。

4、被禁止的页面

我们经常会看到一个网站出现nofollow标签,其标签的主要作用是禁止蜘蛛爬取此超链接,如果你的页面被nofollow禁止了,那么搜索引擎将很难抓取到被你禁止的页面。

相关阅读

屏蔽百度蜘蛛的 ***

百度蜘蛛爬行与抓取的原理

网站蜘蛛日志分析

标签: 蜘蛛规则

相关文章

熟知百度蜘蛛原理,按照优化规则才能做好seo优化

并不是所有的网页对用户都有意义,比如一些明显的欺骗网页、死链接、空白内容页等。这些网页对用户、站长和百度来说都不够有价值,所以百度会自动过滤这些内容,避免给用户和你的网站带来不必要的麻烦。 搜索引擎为...

SEO蜘蛛池是什么?蜘蛛池对SEO的影响

SEO蜘蛛池是什么?蜘蛛池对SEO的影响

SEO蜘蛛池,一个既熟悉又陌生的词,我们知道搜索引擎网页的收录,完全取决于蜘蛛的爬行与抓取,早期,PC时代,对于百度而言网页的收录速度相对较慢,特别是新网站。很多SEO优化初学者,都在追求百度快速...

什么是网络蜘蛛,快来涨知识

什么是网络蜘蛛,快来涨知识

网络 蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面...

利用蜘蛛池程序引导蜘蛛让大型网站霸屏你的关

利用蜘蛛池程序引导蜘蛛让大型网站霸屏你的关

这是一个不适合白帽行业的SEO技术,但也并非适合所有的的灰色行业,今天我拿出的案例是办证类的案例,通过蜘蛛池的程序引导蜘蛛,让大型网站霸屏你的关键词,上排名的速度快,但是稳定性不高。 如上图,上...

写博客工具:蜘蛛程序,对SEO有用吗?

写博客工具:蜘蛛程序,对SEO有用吗?

假如你曾经是一名小我私家网站打点员,那么在网站内容建设的进程中,你会常常收集和整理一些博客东西,这些东西在搜索引擎优化人员的日常事情中起到了努力的浸染。 譬喻:博客群发、内容收集、要害词阐明、蜘蛛措施...

百度蜘蛛抓取规则,如何模拟百度蜘蛛抓取!

百度蜘蛛抓取规则,如何模拟百度蜘蛛抓取!

要想网站排名得让网站收录,要想网站收录得让百度蜘蛛抓取,要想让百度蜘蛛抓取得懂百度蜘蛛抓取规则,今天我就跟大家来说说,百度蜘蛛的抓取规则,另外教大家如何模拟抓取你的网站,查看网站是否可以正常被抓取。...