SEO学习:Spider再次抓取更新策略有哪些?

访客3年前黑客工具477

Spider把网页抓取到本地,该网页被分析索引并参与了排名,并不意味着Spider针对该网页的工作已经结束了。现在互联网网页内容多是动态变化的,甚至有时网页会被管理者删除。搜索引擎所抓取到的本地页面,可以看做是对已经抓取并索引过的网页做了一个镜像,也就是说理论上搜索引擎应该保证,本地“镜像”页面和对应互联网上的网页内容实时一致。但是由于搜索引擎的Spider资源有限,现阶段做不到也没有必要做到实时监测全部已索引网页的所有变化。搜索引擎只需要为Spider设置一个再次抓取和更新页面的策略,以保证当部分页面呈现到用户面前时,搜索引擎的本地索引和该网页当时的内容并没有太大的差异就可以了,这部分页面应该包含大部分网民所需要检索的内容,并且也可以满足绝大多数搜索用户的搜索请求。

如上所述,在有限资源的情况下,搜索引擎首先要保证部分网页索引的更新,这部分网页拥有大部分用户所需要的内容;也要保证所有索引页面都有一个更新机制,在该网页需要相应的新的内容索引时,Spider要进行再次抓取并更新该网页索引。站在Spider的角度,一般会根据以下四个方面来确定对已索引网页的再次抓取频率:用户体验、历史更新频率、网页类型和网页权重。

1.用户体验

整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该也是千亿级别的了,但是用户所需要的信息只有一小部分。当用户在搜索引擎提交查询后,不论返回结果有多少,大部分用户都会在前三页找到自己所需要的信息,很少有用户会浏览第四页或者更靠后的搜索结果。本着优先更新大部分用户所需要内容的原则,所有用户提交查询结果的前几页,都是值得索引及时更新的。所以一般搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户可能看到的网页,继而进行优先再次抓取和更新。理论上,这些网页被搜索到的次数越多,再次被抓取的频率就会越高。

2.历史更新频率

搜索引擎会尝试发现某一个网页中内容的更新频率,因为Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,可能搜索引擎就会降低对其抓取的频率,甚至不再对其进行再次抓取。这个策略的实施是建立在搜索引擎已经发现网页的更新频率的基础上的,所以理论上当Spider发现一个新URL抓取并索引后,会很快进行二次抓取。如果没有发现内容变动,就会降低抓取频率,这样慢慢地发现网页的更新频率,以调整到更佳的抓取频率。同时Spider注重的变化应该是网页的主体内容部分,一般会忽略主体内容周围的广告模块、导航模块及推荐链接模块的更新变动。

3.网页类型

不同的网页类型有不同的更新频率。在同一个站点内网站首页、目录页、专题页和文章页的更新频率肯定是不同的。所以对于同一站点内的网页,Spider对不同类型的网页抓取频率是不同的。首页和目录页是Spider经常光顾的页面;根据专题页面的时效性或者其他特征,Spider可能会在某一时间段内进行频繁抓取,时效性过期后就会降低对其的抓取频率;对于文章页,Spider很有可能之一次来过之后就不再来了。虽然整个互联网中网页很多,但是网页类型并不多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,这也会方便Spider对网页更新频率的判断。

4.网页权重

除了以上再次抓取策略外,网页权重也是决定抓取频率的重要因素。用户体验策略在一定程度上也反映了网页权重的影响。在网页类型相同、历史更新频率也差不多的情况下,肯定是权重越高的页面被抓取的频率越高。比如百度首页、hao123首页、chinaz站长工具首页和普通企业站首页都可以被简单归为网站首页,并且前三个首页长期都不会有什么更新,普通企业站首页可能偶尔还会有更新,但由于获取外部链接支持的质量和数量都不同,用户每日通过百度搜索访问的数量更是不同,所以搜索引擎对这些页面的抓取频次肯定有天壤之别。

在搜索引擎Spider的实际作业中,不会单独使用某一种再次抓取策略,而是会综合参考网页的用户体验、更新频率、网页类型和网页权重。并且对于不同类型的页面,着重参考的更新内容主体也是不同的。比如,列表页只有一篇新的文章进入可能就算更新了;文章页主体内容没有变,主体内容周围的所有推荐链接、广告、内容都变了,可能也不会算是有更新。

在SEO工作中为了提高某一网站的抓取频率,一般会重点为该页面的导入链接提高权重,努力加大该页面的更新频率。其实在用户体验和网页类型方面也是有工作可做的,用标题和描述吸引点击不仅可以提升排名,也能够间接增加页面被Spider抓取的频率;同时对于不同定位的关键词可以使用不同的网页类型(列表页、专题页、内容页等),这在设计页面内容和网站架构时就应该仔细地考虑,并且网页类型这部分有很多工作值得做。比如,有不少网站把整站都做成了列表页,全站没有普通意义上的内容页,内容页主体内容下方或周围也有大量和主题相关的文本内容,一般是类列表形式。不过这种手法有效时间不长,或者损害用户体验后会降低被抓取的频率。不论怎样,优秀的网站架构设计应该合理地利用Spider抓取策略的各种特性。

以上讨论的是Spider正常的抓取策略。有抓取并不代表一定有更新,当页面内容的变化值得搜索引擎更新索引时才会更新。比如,上面提到的文章页主体内容不变但是推荐链接全变了,一般搜索引擎也不会浪费资源做无意义的更新。当Spider发现已经索引的页面突然被删除,也就是服务器突然返回404状态码时,也会在短时间内增加对该页面的抓取频率。但这仅仅是来确认这批网页是否真正被删除了,增加的这些抓取对于站点本身内容的收录和更新并没有什么作用。

另外,有不少门户网站习惯对即时新闻先发布一个标题,然后再让编辑补充内容,甚至还会修改标题。但是这种网页一般都是文章页,不论从用户体验、更新频率、网页类型和网站权重哪方面来看都不会得到比较高的抓取频率,也就造成这些网站不断在报怨百度不更新如此操作的新闻网页。有这种更新快照需求的朋友,可以尝试使用百度站长平台中的“抓取诊断”来抓一下需要更新的页面,“抓取诊断”工具调度的是大搜的Spider,有助于让百度快速地发现网页内容的变化。

相关文章

qq密码忘了怎么办找回(最简单的申诉方法)

相信现在有很多的朋友们对于两限房怎么查询呢都想要了解吧,那么今天小编就来给大家针对两限房怎么查询呢进行一个介绍吧,希望小编介绍的内容能够为大家起到帮助哦 1、区级公示意义不大,只有取得市级备案资格才能...

Win10提示无法保存IP设置该如何解决,Win10提示无法保存IP设置解决方法

近期许多 小伙伴表明,自身还不了解Win10提醒无法保存IP设定该如何解决,为了更好地让大家便捷下手实际操作,这儿我专业共享了有关Win10提醒无法保存IP设定解决方案,有必须的盆友不必错过了哦。  ...

诺基亚520怎么样?诺基亚经典之作

诺基亚520怎么样?诺基亚经典之作

今天闲来无事,翻箱倒柜找到了当年买的诺基亚520(Lumia 520),这部手机是微软收购诺基亚前发布的一款WP系统的手机,也是Lumia系列中销量最高、评价最高的一部手机。记得买这部手机时小编我刚上...

免费二级域名建站怎么做(哪里有免费的免费主

免费二级域名建站怎么做(哪里有免费的免费主

开启流程>>选择宝盒>>企业实名>>提交申请>>等待审核 (只要是以企业资质申请的基本可以通过,个人申请暂时不开放) 1、点击免费建站 2、填...

什么牌子的冰柜好,品牌冰柜排行榜!

什么牌子的冰柜好,品牌冰柜排行榜!

我们在一些家庭或者商场、饭店等公共产所都会看到冰柜的使用。尤其在夏天更需要冰柜来为产品持续冷冻或者保鲜。而冰柜的品牌太多,价格也有便宜、偏贵的,哪个品牌的冰柜质量不错,性能好,让小编来为大家详细介绍一...

哪里能联系到黑客高手?哪里能联系到黑客接单

第二届湖北网络安全技术竞赛在湖北生物技术职业学院举行,来自60个团队的180名参与者,包括该省的大学和重点网络企业。通过模拟“黑客”来发现服务器中的漏洞,修复网络安全环境来确定结果,终于找到了24小时...