av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

深入理解MySQL索引底層數據結構

作者:京東物流 于朔

站在用戶的角度思考問題,與客戶深入溝通,找到武勝網站設計與武勝網站推廣的解決方案,憑借多年的經驗,讓設計與互聯網技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都做網站、成都網站制作、企業(yè)官網、英文網站、手機端網站、網站推廣、申請域名、虛擬空間、企業(yè)郵箱。業(yè)務覆蓋武勝地區(qū)。

1 引言

在日常工作中,我們會遇見一些慢SQL,在分析這些慢SQL時,我們通常會看下SQL的執(zhí)行計劃,驗證SQL執(zhí)行過程中有沒有走索引。通常我們會調整一些查詢條件,增加必要的索引,SQL執(zhí)行效率就會提升幾個數量級。我們有沒有思考過,為什么加了索引就會能提高SQL的查詢效率,為什么有時候加了索引SQL執(zhí)行反而會沒有變化,本文就從MySQL索引的底層數據結構和算法來進行詳細分析。

2 索引數據結構對比

索引的定義:索引(Index)是幫助MySQL高效獲取數據的排好序的數據結構。

索引中常見的數據結構有以下幾種:

  • Hash表
  • 二叉樹
  • 紅黑樹
  • B-Tree
  • B+Tree

Hash表通過索引的key進行一次hash計算,就可以快速獲取磁盤文件指針,對于指定索引查找文件非???,但是對于范圍查找沒法支持,有時候也會出現Hash沖突的情況。

二叉樹二叉樹的特點:左邊子節(jié)點的數據小于父節(jié)點數據,右邊子節(jié)點的數據大于父節(jié)點數據。如下圖所示,如果col2是索引,查找索引為65的行元素,只需要查找兩次,就可以獲取到行元素所在的磁盤指針地址。

但如果是一個按照順序遞增的值,例如為col1建立索引,不再適合使用二叉樹建立索引,因為此時使用二叉樹建立索引將會變成一個鏈式索引,此時的索引結構如下圖所示,如果查找6節(jié)點需要6次遍歷才能找到。

紅黑樹紅黑樹是一種二叉平衡樹,可以提高查詢效率,此時若再查找6節(jié)點只需要遍歷3次就能找到了。但紅黑樹也有缺點,當存儲大數據量時,樹的高度就會變的不可控, 數量越大,樹的高度越高,查詢的效率將會大大降低。

B-TreeB-Tree是一種多路二叉樹,所具有的特點:1 葉節(jié)點具有相同的深度,葉節(jié)點的指針為空;2 所有索引元素不重復;3 節(jié)點中的數據索引從左到右遞增排列。

B+TreeB+Tree是B-Tree的變種,所具有的特點:1 非葉子節(jié)點不存儲data,只存儲索引(冗余),可以放更多的索引;2 葉子節(jié)點包含所有索引字段;3 葉子節(jié)點用指針連接,提高區(qū)間訪問的性能。

與紅黑樹相比,B-Tree和B+Tree兩種數據結構都更加矮胖,存儲相同數量級的索引數據時,層級更低。

B-Tree和B+Tree之間一個很大的不同,是B+Tree的節(jié)點上不儲存value,只儲存key,而葉子節(jié)點上儲存了所有key-value集合,并且節(jié)點之間都是有序的。這樣的好處是每一次磁盤IO能夠讀取的節(jié)點更多,也就是樹的度(Max.Degree)可以設置的更大一些,因為每次磁盤IO讀取的磁盤頁數是一定的。例如,每次磁盤IO能夠讀取1頁=4kb,那么省去value的情況下同樣一頁數據能夠讀取更多的key,這樣就大大減少了磁盤的IO次數。

此外,B+Tree也是排好序的數據結構,數據庫中><或者order by等都可以直接依賴這一特性。

MySQL中對于索引使用的主要數據結構也是B+Tree,目的也是在讀取數據時能夠減少磁盤IO。

3 千萬級數據如何用B+樹索引快速查找

MySQL 官方對非葉子節(jié)點(如最上層 h = 1的節(jié)點,B+Tree高度為3) 的大小是有限制的,最大的大小是16K,可以通過以下SQL語句查詢到,當然這個值是可以調的,既然官方給出這個閾值說明再大的話會影響磁盤IO效率。

從執(zhí)行結果,可以看到大小為 16384,即 16K大小。

假如:B+Tree的表都存滿了。主鍵索引的類型為BigInt,大小為8B,指針存儲了下個節(jié)點的文件地址,大小為6B。最后一層,假如 存放的數據data為1K 大小,那么

  1. 第一層最大節(jié)點數為: 16k / (8B + 6B) ≈ 1170 (個);
  2. 第二層最大節(jié)點數也應為:1170個;
  3. 第三層最大節(jié)點數為:16K / 1K = 16 (個)。

則,一張B+Tree的表最多存放 1170 1170 16 ≈ 2千萬。

所以,通過分析,我們可以得出,B+Tree結構的表可以容納千萬數據量的查詢。而且一般來說,MySQL會把 B+Tree 根節(jié)點放在內存中,那只需要兩次磁盤IO就行。

4 存儲引擎索引實現

MySQL中索引儲存在哪里呢?和數據一樣,索引以文件形式儲存在硬盤上。
在MyISAM儲存引擎中,數據和索引文件試試分開儲存的,數據存在.MYD結尾的文件中,索引單獨存在.MYI結尾的文件中。

在InnoDB中,數據和索引文件是合起來儲存的,注意下圖中沒有了.MYI結尾的文件,只有一個.ibd結尾的文件。

MyISAM索引文件和數據文件是分離的(非聚集),并且主鍵索引和輔助索引(二級索引)的儲存方式是一樣的。

InnoDB中索引文件和數據文件是同一個文件(聚集),并且主鍵索引和二級索引儲存方式有所不同,如圖所示,二級索引的葉子節(jié)點不儲存數據,僅儲存主鍵ID。

這里思考幾個問題:

  • 為什么建議InnoDB表必須建主鍵,并且推薦使用整型的自增主鍵?
  • 為什么非主鍵索引結構葉子節(jié)點存儲的是主鍵值?

如果我們在創(chuàng)建表時不設置主鍵,InnoDB會自動幫我們從第一列開始篩選一列數據不重復的列做為主鍵,如果找不到這樣的列,就會創(chuàng)建一個隱藏的列(rowid)做為主鍵,這會增加很多MySQL的工作,所以建議我們在創(chuàng)建InnoDB表時一定要設置主鍵。

整型的字段做為主鍵,一方面在數據比較時不需要進行轉換,另一方面存儲也比較節(jié)省空間。那為什么要強調主鍵自增呢?如果主鍵id是無序的,那么很有可能新插入的值會導致當前節(jié)點分裂,此時MySQL不得不為了將新記錄插到合適位置而移動數據,甚至目標頁面可能已經被回寫到磁盤上而從緩存中清掉,此時又要從磁盤上讀回來,這增加了很多開銷,同時頻繁的移動、分頁操作造成了大量的碎片,得到了不夠緊湊的索引結構,后續(xù)不得不通過OPTIMIZE TABLE來重建表并優(yōu)化填充頁面。反之,如果每次插入有序,那就會在當前頁后面連續(xù)寫入,寫不下就會重新分配一個節(jié)點,內存都是連續(xù)的,這樣效率自然也就最高了。

非主鍵索引的葉子節(jié)點存儲主鍵值而非全部數據,主要也是為了一致性和節(jié)省空間。如果二級索引儲存的也是數據,那么每次插入MySQL都不得不更新每棵索引樹,這樣就加劇了新增編輯時的性能損耗,并且這樣一來空間利用率也不高,必然產生了大量冗余數據。

5 聯合索引底層數據結構又是怎樣的

聯合索引又叫復合索引,例如下表:

CREATE TABLE `test` (
  `id` bigint NOT NULL AUTO_INCREMENT,
  `name` varchar(24) NOT NULL,
  `age` int NOT NULL,
  `position` varchar(32) NOT NULL,
  `address` varchar(128) NOT NULL,
  `birthday` date NOT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_name_age_position` (`name`,`age`,`position`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

如下索引就是一個聯合索引。

`idx_name_age_position` (`name`,`age`,`position`) USING BTREE

聯合索引底層數據結構長什么樣?

比較相等時,先比較第一列的值,如果相等,再繼續(xù)比較第二列,以此類推。

了解了聯合索引的存儲結構,我們就知道了索引最左前綴優(yōu)化原則是怎么回事了,在使用聯合索引時,對于索引列的定義順序將會影響到最終查詢時索引的使用情況。例如聯合索引(name,age,position),MySQL會從最左邊的列優(yōu)先匹配,如果最左邊的帶頭大哥name沒有使用到,在未使用覆蓋索引的情況下,就只能全表掃描。

聯合底層數據結構思考:MySQL會優(yōu)先以聯合索引第一列匹配,此后才會匹配下一列,如果不指定第一列匹配的值,也就無法得知下一步查詢哪個節(jié)點。

6 總結

索引本質上是一種排好序的數據結構,了解了MySQL索引的底層數據結構及存儲原理,可以幫助我們更好地進行SQL優(yōu)化。其實數據庫索引調優(yōu)是一項技術活,不能僅僅靠理論,因為實際情況千變萬化,而且MySQL本身存在很復雜的機制,如查詢優(yōu)化策略和各種引擎的實現差異等都會使情況變得更加復雜。但同時這些理論是索引調優(yōu)的基礎,只有在明白理論的基礎上,才能對調優(yōu)策略進行合理推斷并了解其背后的機制,然后結合實踐中不斷的實驗和摸索,從而真正達到高效使用MySQL索引的目的。

最后,如果大家想再溫習一下數據結構的知識,這個數據結構網站(https://www.cs.usfca.edu/~galles/visualization/Algorithms.html )不可錯過,可以很好地幫助我們演示數據結構的存儲過程。


文章標題:深入理解MySQL索引底層數據結構
URL網址:http://uogjgqi.cn/article/dhsgipc.html
掃二維碼與項目經理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯網交流