SEO学习:页面抓取方式 有哪些?

访客4年前黑客工具320

(1)广度优先抓取

广度优先抓取是指 *** 蜘蛛会先抓取起始网页中链接的所有网页,然后选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的蜘蛛抓取方式,该 *** 的优点是可以让 *** 蜘蛛并行处理,提高其抓取速度。

广度优先抓取是一种按层次横向抓取页面的方式,如图2-18所示,它会从网页的更底层,也就是首页开始抓取页面,直至该层页面被抓取完才会进入下一层。所以,当我们在做网站优化的时候,不妨将一些相对重要的信息或栏目在首页优先展示出来(如热门产品、资讯内容等),让搜索引擎优先抓取到网站较为重要的信息。

(2)深度优先抓取

深度优先抓取是指 *** 蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

(3)质量优先抓取

质量优先抓取一般是针对大型网站,比如新浪、网易、阿里巴巴等类型的网站,由于它们的信息量庞大,而且本身权重比较高,相对来说更容易为用户提供更有价值的信息。正因如此,搜索引擎会更愿意优先抓取大型网站中的网页,以保障其可以在最短的时间内为用户提供更有价值的信息(这也是大型网站的内容抓取比小站更及时的原因之一)。

搜索引擎整理高质量的网站一般分为两种方式:一种是前期的人工整理大量种子网站,进而由种子资源出发去发现更多大型网站资源;另一种是对已经索引的网站进行系统分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。

(4)暗网抓取

所谓暗网(又称深网、不可见网或隐藏网),是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。搜索引擎爬虫必须依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型的例子是一些垂直领域网站,如携程旅行网的机票数据,很难使用显式链接指向数据库内的所有机票记录,往往是服务网站提供组合查询界面(如图2-20所示),只有用户按照需求输入查询之后,才能够获得相关数据。所以,常规的爬虫无法索引这些数据内容,这是暗网的命名由来。

相关文章

广西玉林杀害男医生女护士获死刑-广西玉林杀害男医生案开庭

广西玉林杀害男医生女护士获死刑-广西玉林杀害男医生案开庭

10月30日上午,广西玉林杀害男医生案开庭,最终广西壮族自治区玉林市中级人民法院依法对被告人李凤萍作出了一审判决,广西玉林杀害男医生女护士获死刑,3月24日,玉林城区发生一起命案,被害人是玉林市一家医...

馋嘴猫零食利润多少?快来看

馋嘴猫零食利润多少?快来看

各人在选择加盟项目标时候,首先城市看加盟项目标利润如何。此刻有不少加盟商都在咨询一个问题,那就是馋嘴猫零食加盟项目标利润如何?假如你也是馋嘴猫零食项目标忠实粉丝的话,想要加盟的话,那么就跟我一起来看看...

野保专家在三江源发现罕见藏棕熊怎么回事?藏棕熊长什么样为何罕见

江源国家公园(试点)边界地带,正在这里开展野生动物资源调查的北京黑豹野生动物保护站的三名队员,发现了四只罕见的藏棕熊。这对于外地进入三江源地区的野调组织来说非常难得,而且可以证明三江源国家公园丰富多样...

高血压降压药哪个最好(晨起血压高怎样吃降压

点一下右上方马上留意。大量对于脑中风(星期一)、糖尿病患者(星期二)、血压高(星期三)、心肌梗塞(星期四)、脑外科(星期五)、颈、肩、后背和脚部痛疼(星期六)、膝关节损伤和别的病症(星期天)的家中恢复...

教你防止**教程  vs2017安装和使用教程

教你防止**教程  vs2017安装和使用教程

vs2019 已于4月2日推出,用户不用卸载vs2017,因为这二者互相独立,项目也兼容,安装教程也是本篇的姊妹篇: vs2019安装和使用教程(详细) vs2017如此强大,不仅仅是C语言,P...

用手机怎么做兼职赚钱?利用手机做副业兼职赚钱的方法

用手机怎么做兼职赚钱?利用手机做副业兼职赚钱的方法

2019年以来,一直把自己多年来所学到的变现知识输出出来,帮助更多人了解“变现”思维。我们从知识、项目、案例、工具、方法论等各个角度给大家分享了一年时间的内容,基本上每天我都在写作新内容分享。 今天...