転置インデックス

検索エンジン＞全文検索エンジン

メニューを開く

転置インデックスとは？

　状態:- 　閲覧数:2,875 　投稿日:2017-03-06 　更新日:2017-03-19 　

索引を格納するデータベースやファイル
・全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造
・転置索引、転置ファイル、逆引き索引などとも呼ばれる
・全文検索を行う対象の文書群から、単語の位置情報を格納するための索引構造のことである。情報処理テクノロジにおける転置インデックスは、単語や数字などに含まれているデータベースやドキュメント群へのマッピングを保持するインデックス型のデータ構造で、ドキュメント群へのマッピングの場合、検索エンジンが実現されている。
また検索キーが単語であり、連想配置の値が位置情報である場合は、ハッシュテーブルの形態を取る場合もある。転置インデックスには、大きく2つの手法がある。1つは、レコード単位転置インデックスと呼ばれるもので、単語とその単語を含む全文書をリストとして備えている。
もう1つは、単語単位インデックスである。単語を含んだ全文書以外にも、その単語が文書中のどこに現れるかという位置情報も含んでいる。また、単語単位転置インデックスの実装にも、いつくかの手法がある。
その中でももっとも単純なものは、全文書のIDとその保存位置情報をペアとして格納したものである。

平仮名
・てんちいんでっくす

英語
・Inverted index

インデックス作成とは？

「転置インデックス作成」の略称
・転置インデックスを作成する処理

全文検索システム

　閲覧数:537　投稿日:2017-03-05　更新日:2017-03-15　

全文検索システム

Google その他の全文検索システムでは転置インデックスというデータ構造を予め作成し、高速に検索できるようにしている
・MySQL や PostgreSQL 等の RDBMS にも全文検索のための転置インデックス作成機能があるが、日本語に対応していないという問題がある
・MySQL でも Senna を使えば日本語の全文検索ができる

Senna

転置インデックスを用いた日本語対応の高速な全文検索を可能にするライブラリ
・N-gram 系
・Senna には MySQL と連携するためのパッチが標準でついている
・PostgreSQL についても NTT データが提供している Ludia を追加することで Senna と連携可能になる

転置インデックスの仕組み

各単語と単語を含む文書IDからなるテーブル
（注：実際には単語が文書の中で出現した位置情報を含む場合が多いが、本稿では割愛）

例
・2つの英語の文書（Doc 1,Doc2）がある
・そのコンテンツがそれぞれ「I love Emacs」「I prefer Vim to Emacs」
・このとき、以下の表のような転置インデックスを生成
・説明に利用する転置インデックスは「連想配列」というデータ構造で実装でき（注：連想配列でない実装もある）、単語をキーにして文書ID のリストを返す

表
・転置インデックスの例

単語	文書IDリスト
I	1,2
love	1
Emacs	1,2
prefer	2
Vim	2
to	2

表のような転置インデックス完成後
・クエリに対する結果を返す処理は簡単
・例えば、ユーザーが「Vim」というクエリを発行すると、検索エンジンは「Vim」を含む文書IDリストを返す
・表では文書IDの「2」を返す

検索エンジンの常識をApache Solrで身につける

転置インデックス
第3回　転置索引とは何か？：検索エンジンはいかにして動くのか？
転置インデックスの基礎
転置インデックスとは
転置インデックスの構造から見る全文検索
転置インデックスで日本語を検索する際の仕組み
転置インデックスを利用した検索とgrepによる検索を比較してみる
転置インデックスを実装しよう
転置インデックスとTop
悟空、秘剣「転置インデックス」を手に入れる

Mroongaの完全転置インデックスによる全文検索はどのくらい速いのか
検索エンジンを実装 (1)転置インデックス作成

転置インデックスに位置情報を付与する新手法
「転置インデックス」
文単位転置インデックスによる近接検索手法
全文検索システム「SOLR」の紹介 - 第2回「全文検索の仕組み」

コメント投稿(ログインが必要)

類似度ページランキング

順位	ページタイトル抜粋	％
1	転置インデックス	100
2	スイッチングハブ	50
3	スタック	50
4	Webスクレイピング	44
5	デファクトスタンダード	42
6	クラスメソッド	40
7	インクリメント	40
8	サブネットマスク	38
9	ランダムアクセス	38
10	スパイラルモデル	38
11	デザインパターン	38
12	クラス	36
13	シンボリックリンク	35
14	ネットワークアドレス	33
15	クラス図	33
16	デーモン	33
17	シーケンシャルアクセス	32
18	セッション	31
19	マッピング	31
20	エイリアス	31
	2025/12/28 21:44 更新

週間人気ページランキング／ 12-21 → 12-27

順位	ページタイトル抜粋	アクセス数
1	偏微分 \| 数学	2
1	パッケージ \| パッケージ管理(開発)	2
2	Morris-Pratt algorithm \| 探索アルゴリズム(アルゴリズム)	1
2	アーキテクト \| 開発	1
2	計算可能関数 \| アルゴリズム	1
2	ワンライナー \| プログラミング	1
2	ベクトルの内積	1
2	フェーズ \| 開発	1
2	クラスメソッド \| クラス(プログラミング)	1
2	memcached \| ネットワーク	1
2	ネットワークアドレス \| ネットワーク	1
2	転置インデックス \| 全文検索エンジン(検索エンジン)	1
2	カテゴリ一覧	1
2	tRNSチャンク／ PNG画像の問題／ PNG8とは？	1
2	ASCII \| データ形式(プログラミング)	1
2	三角関数 \| 数学	1
2	DMZ \| ネットワーク	1
2	ピタゴラスの定理 \| 数学	1
2	システムインテグレーター \| 開発	1
2	デーモン \| Linux	1
	2025/12/28 1:02 更新