【図解】インデックスとは？高速探索を可能にする仕組み【DB】

2024年3月24日2024年4月10日

1. インデックスの概要
2. 大半の人はインデックスの本質を理解していない
3. 代表的なインデックスのデータ構造
- 3.1. B+Treeインデックス
- 3.2. ハッシュインデックス
4. まとめ
5. 参考記事
6. おすすめ書籍

インデックスの概要

インデックスはクエリの実行に必要な時間を大幅に短縮するための仕組みの一つです。

インデックスが適切に設定されたテーブルであれば、数億レコードあるテーブルだとしても必要なデータだけを一瞬で取得することも可能にします。

インデックスはテーブル作成時に設定することもできますが、すでにレコードが格納されているテーブルにも設定可能です。そのため現在レコード数が多くてデータ取得に時間がかかり困っている方はインデックスの導入を検討すると良いでしょう。

この後、インデックスの本質を理解していただくために少しだけ深い話をします。本質を理解することによって、どのようにインデックスを張るべきなのかとインデックスを張ることのデメリットを深く理解できるからです。

大半の人はインデックスの本質を理解していない

インデックスは名前の通り本の索引によく例えられます。念のため解説しておくと、本の索引とは以下のようにキーワードとそれが載っているページをリスト形式で載せているものです。

メダカ・・・29ページ
メモリ・・・50, 74ページ
モズク・・・1, 22, 33, 44, 55, 66ページ

データベースにおけるインデックスの説明に本の索引が用いられた場合の説明は以下のようなものです。

「目的のキーワードが載っているページを読みたいとき、索引が無ければ1ページ目から順番に読んで探さないといけません。しかし索引があればキーワードに該当するページを一発で知ることが出来ます。データベースでインデックスを利用すると、このように索引からすぐに特定のレコードを見つけることが出来るのです。」

確かにこの説明を聞くと一瞬なるほどと思います。でもなにかおかしくないですか？

だってそのキーワードが索引内のどこに存在するのかはちゃんと探さないと知ることが出来ないからです。

本の場合であれば1ページ1ページ丸々読む必要が消え、索引内だけを探せば済むので確認量を大きく減らせます。しかしテーブルの場合、キーワードとそのキーワードを含むレコードの組み合わせを持った索引を作ったとして、索引の中で特定のキーワードを探すことと、索引を使わずにレコードを探索することの何が違うのでしょうか？違いがありません。

だとしたらインデックスとは何なのか。

それは「索引 + 索引内の探し出したいキーワードにたどり着くためのアルゴリズムおよびデータ構造」です。

インデックスの本質を知る上で重要なのはこの後半の部分になります。

インデックスを「張る」と日本では言うことが多いため、テーブルに対してカラムを追加しちょっとしたデータを格納するようなイメージを持ってしまうかもしれません。しかし実態は全く異なります。インデックスを張るということの本当の意味は「索引内のキーワードを超効率的に見つけられるデータ構造のオブジェクトを作る」ことを指すのです。

インデックスはテーブルに何かをちょい足しするようなものではないことを理解しておきましょう。ちなみに「張る」という表現をするのは日本だけで、英語では"create an index"や"add an index"と呼びます。

ではインデックスとはどのようなデータ構造を持つのでしょうか？たくさんの種類があるのですが、この記事では代表的な二つを紹介します。

代表的なインデックスのデータ構造

データベースのインデックスに用いられる代表的なデータ構造を紹介します。紹介するのは以下の2つです。

B+Treeインデックス
ハッシュインデックス

他のデータ構造についてもこの2つのデータ構造がもとになっているものが大半なので、まずはこの二つを理解しましょう。

B+Treeインデックス

超有名なデータベースであるOracle DB、MySQL、PostgreSQLで採用されているデータ構造です。

仕組みは二分探索の応用です。二分探索とは、探したいものがあるときに候補の数が半分になるように探索を繰り返す手法になります。例えば1~100の数値の中から23を見つけたいときには、まず1と100の間である50よりも大きいか小さいかで判断し、小さいことが分かったら今度は1と50の中間である25よりも大きいか小さいかで判断する、同じ流れで目的の23のみに絞られるまで繰り返す、といった流れです。

もし単純に先頭から探すという手法を取った場合、1を探すのであれば一瞬で終わりますが100を探すときに時間がかかってしまいます。しかし二分探索の場合はどんな数字が来た時にもある程度少ない探索数で見つけたい数字を見つけることが出来ます。

それでは本題のB+treeの構造について説明します。二分探索との違いは大きいか小さいかのような二択だけではなくそれ以上の択を設定できるポイントにあります。以下にB+Treeの構造を簡単な図で表します。