百度怎么抓取关键词?百度收录网站抓取网页的流程揭秘

访客3年前黑客文章933

做SEO优化推广就要说到百度收录的问题,很多人不明白,这么多相同的网页,百度到底是怎么分辨先收录那篇文章的呢?明明内容一样为什么别人网站收录了自己的却没有收录,下面常州昌润信息小编来看看百度蜘蛛收录一个网站的的全过程揭秘,需要的朋友可以参考下

我们知道搜索引擎工作过程非常复杂的,今天和大家分享一下我所了解的百度蜘蛛是怎么实现网页收录的。

昌润信息:百度收录网站抓取网页的流程揭秘

搜索引擎工作大致可以分为四个过程。

1、蜘蛛爬行抓取。

2、信息过滤。

3、建立网页关键词索引。

4、用户搜索输出结果。

  • 蜘蛛爬行抓取

当百度蜘蛛来到一个页面时,它会跟踪页面上的链接,从这个页面爬行到下一个页面,就好像一个递归过程,这样常年累月,不止疲倦的工作。比如蜘蛛来到了常州昌润信息网站首页http://www.changrunxx.com,它会先读取根目录下的robots.txt文件,如果没有禁止搜索引擎抓取,那么蜘蛛就开始针对网页上的链接,进行逐一跟踪爬行。比如我们这篇文章“昌润信息:百度收录网站抓取网页的流程揭秘”,引擎就会多进程式的来到这篇文章所在的网页抓取信息,如此循坏,没有终结。

  • 信息过滤

为了避免重复爬行和抓取网址,搜索引擎会有一个记录已爬行和未被爬行的地址库,如果你有一个新网站时,你可以去百度官网提交网站的网址,引擎就会记录它,并把它归类到未爬行的网址,然后蜘蛛就会根据这个表格,从数据库中提取URL,访问并抓取页面。

蜘蛛并不会收录所有的页面,它要经过严格检测。当蜘蛛在爬行和抓取一个网页的内容时,会进行一定程度的复制内容检测,如果网页所在的网站权重低,而且大部分文章都是抄袭来的话,蜘蛛就很可能不喜欢你的网站了,不在继续爬行,也就不收录你的网站。

  • 建立网页关键词索引

当蜘蛛抓取了一个页面之后,首先会对页面文字内容进行分析。通过分词技术,将网页的内容简化到关键词,并把关键词和对应的网址制成表格建立索引。

索引又有正向索引和反向索引,正向索引是把网页内容对应的关键词,反向是关键词对应的网页信息。

  • 输出结果

当用户搜索了某个关键词之后,就会通过前面建立的索引表进行关键词匹配,通过反向索引表找到关键词对应的页面,通过引擎对网页综合评分计算以后,根据网页的评分来决定网页的先后顺序排名。

相关文章

怎么保存网页内容到本地(网页信息怎么导出)

怎么保存网页内容到本地(网页信息怎么导出)

今天推荐一款几乎可以下载全部网页视频的浏览器插件:FVD Video Downloader 基本上可以下载绝大部分常规或非常规的视频网站的视频,并且此插件不仅可以下载网页视频,还支持下载音频网站上的...

怎么保存整个网页,教你一个妙招就可以搞定!

怎么保存整个网页,教你一个妙招就可以搞定!

熟悉Mac系统的用户都知道,Safari有一个非常实用的功能,就是可以通过另存为的方式将整个网页存为一张图片使用,这个功能对于编辑来说非常实用!而在windows系统下,最新的Windows 10 自...

如何制作网页?五分钟快速制作一个简单的网页

如何制作网页?五分钟快速制作一个简单的网页

1.在电脑桌上创建一个文本文件:     2.将文本名改为"test.html"(扩展名为.html或者.htm)即可:     3.文件名改好后,右击打开方式,选择记事本(或者使...

证书错误怎么办(手把手教你网页证书错误怎么解

证书错误怎么办(手把手教你网页证书错误怎么解

有的时候查看一些网页会显示安全证书过期或者证书错误的情况,特别耽误时间,让人头大。如果大家确定显示证书有问题的网站是正常网站的话,下面小编给大家介绍一下如何解决这个恼人的问题: 首先我们要先确定本台...

我想要查我老公和其他女人聊天记录

163vip邮箱怎么登录?网页版163.net邮箱(TOM VIP邮箱)因其无需下载客户端,直接打开浏览器即可使用的便捷性,深受大家喜爱。无论是企业中高层管理,或是初入职场的小白,使用网页版邮箱,都是...

html高端大气滑动效果,win8网页滑动效果

html高端大气滑动效果,win8网页滑动效果

操作系统发展史告诉我们,科技不断进步,我们的网页质量在进步的同时也要随着系统来更新,那么今天给大家来带一个比较炫丽的win8界面的效果。html高端大气滑动效果,win8网页滑动效果。 下载地址:点...