什么是索引(什么是索引?索引原理)索引是单独的,物理的对数据库表中一列或多列的值进行排序的一种存储结构,让程序能够快速找到所需内容。
索引是一种数据结构(平衡树非二叉),即B树,B+树,通过不断的缩小想要获得数据的范围来筛选出最终想要的结果,同时把随机的事件变成顺序的事件。
B树:
1.定义任意非叶子结点最多只有M个儿子;且M>2;
2.根结点的儿子数为[2, M];
3.除根结点以外的非叶子结点的儿子数为[M/2, M];
4.每个结点存放至少M/2-1(取上整)和至多M-1个关键字;(至少2个关键字)
5.非叶子结点的关键字个数=指向儿子的指针个数-1;
6.非叶子结点的关键字:K[1], K[2], …, K[M-1];且K[i] < K[i+1];
7.非叶子结点的指针:P[1], P[2], …, P[M];其中P[1]指向关键字小于K[1]的
子树,P[M]指向关键字大于K[M-1]的子树,其它P[i]指向关键字属于(K[i-1], K[i])的子树;
8.所有叶子结点位于同一层;
B-树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果
命中则结束,否则进入查询关键字所属范围的儿子结点;重复,直到所对应的儿子指针为
空,或已经是叶子结点;
B-树的特性:
1.关键字 *** 分布在整颗树中;
2.任何一个关键字出现且只出现在一个结点中;
3.搜索有可能在非叶子结点结束;
4.其搜索性能等价于在关键字全集内做一次二分查找;
5.自动层次控制;
由于限制了除根结点以外的非叶子结点,至少含有M/2个儿子,确保了结点的至少
利用率,其更底搜索性能为:
其中,M为设定的非叶子结点最多子树个数,N为关键字总数;
所以B-树的性能总是等价于二分查找(与M值无关),也就没有B树平衡的问题;
由于M/2的限制,在插入结点时,如果结点已满,需要将结点分裂为两个各占
M/2的结点;删除结点时,需将两个不足M/2的兄弟结点合并;
B+树是B-树的变体,也是一种多路搜索树:
1.其定义基本与B-树同,除了:
2.非叶子结点的子树指针与关键字个数相同;
3.非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树
(B-树是开区间);
5.为所有叶子结点增加一个链指针;
6.所有关键字都在叶子结点出现;
B+的特性:
1.所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好
是有序的;
2.不可能在非叶子结点命中;
3.非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储
(关键字)数据的数据层;
4.更适合文件索引系统;
今天给大家分享一下倒排索引的一些事情,为什么要说倒排索引呢?因为当用户搜索一个词的时候,返回的搜索结果页面就是经过倒排索引和一系列算法过滤后的结果排序,seo苦苦追求的不就是排名的多少吗?...
在搜索引擎优化事情中,我们常常谈论百度收录的问题。大大都搜索引擎优化人员一直在为百度为什么不包罗这个页面而挣扎。事实上,在某些特定的时间,我们也很是体贴为什么一个页面不删除索引。 那么,为什么有的页...
已往在优化企业网站的进程中,我们常常会碰着一个难过的问题。对付特定行业的一些企业网站来说,真正可以建设的内容很是少。 可是在领略产物的进程中,我们常常发明每一个相对局限的企业都有一个很是完善的产物操纵...
作为搜索引擎优化人员,当我们面临一个新的站点时,它老是布满了不确定因素。纵然你有履历,你也会碰着各类百般的问题。个中,关于页面包括的问题老是被大量提及。 出格是:有些网站在上线初期往往要经验一个很长的...
经过百度算法的不断更新,site的数据基本不能够看出自己网站的收录情况,百度站长工具通过百度索引量来告诉各位站长自己网站的收录情况、抓取、释放等。那么看到百度索引量这样的新词,很多SEOER又开始觉得...
做网站一直深的大家关注的是网站收录问题,为了更方便的给大家一个准确的数据,因此百度推出了百度索引量的工具,那么百度索引量和百度收录有什么直接的关系呢,另外如何增加百度索引量呢? 网站收录的前提是...