全文検索システム

カテゴリー: 検索エンジン 　閲覧数:535　配信日:2017-03-05 23:08

Google その他の全文検索システムでは転置インデックスというデータ構造を予め作成し、高速に検索できるようにしている
・MySQL や PostgreSQL 等の RDBMS にも全文検索のための転置インデックス作成機能があるが、日本語に対応していないという問題がある
・MySQL でも Senna を使えば日本語の全文検索ができる

Senna

転置インデックスを用いた日本語対応の高速な全文検索を可能にするライブラリ
・N-gram 系
・Senna には MySQL と連携するためのパッチが標準でついている
・PostgreSQL についても NTT データが提供している Ludia を追加することで Senna と連携可能になる

転置インデックスの仕組み

各単語と単語を含む文書IDからなるテーブル
（注：実際には単語が文書の中で出現した位置情報を含む場合が多いが、本稿では割愛）

例
・2つの英語の文書（Doc 1,Doc2）がある
・そのコンテンツがそれぞれ「I love Emacs」「I prefer Vim to Emacs」
・このとき、以下の表のような転置インデックスを生成
・説明に利用する転置インデックスは「連想配列」というデータ構造で実装でき（注：連想配列でない実装もある）、単語をキーにして文書ID のリストを返す

表
・転置インデックスの例

単語	文書IDリスト
I	1,2
love	1
Emacs	1,2
prefer	2
Vim	2
to	2

順位	ページタイトル抜粋	アクセス数
1	アウトプットバッファリング \| 出力バッファリング制御(その他)	1
1	ポリモーフィズム \| クラス(プログラミング)	1
1	レプリケーション \| 開発	1
1	O/Rマッピング \| 開発	1
1	ピタゴラスの定理 \| 数学	1
1	バーチャルホスト \| サーバ	1
1	アカウント登録	1
1	メール \| ネットワーク	1
1	自然数 \| 数学	1
1	ゲストコメント一覧ページ	1
1	CSRF \| セキュリティ	1
1	Chromecast \| 装置	1
1	偏微分記号「∂」／ x³y² を x について偏微分／ x³y² を y について偏微分／x³y² を z について偏微分	1
1	スカラー \| プログラミング	1
1	有理数 \| 数学	1
1	可搬性 \| プログラミング	1
1	関数 \| プログラミング	1
1	Morris-Pratt algorithm \| 探索アルゴリズム(アルゴリズム)	1
1	アーキテクト \| 開発	1
1	計算可能関数 \| アルゴリズム	1
	2025/12/25 1:02 更新

順位	ページタイトル抜粋	アクセス数
1	Flash Video \| コンテナフォーマット	3717
2	プログラミング用語	1443
3	YouTube \| API	1295
4	ベクトル \| 数学	1292
5	curl \| HTTPクライアント(ネットワーク)	1263
6	ユースケース \| 開発	1256
7	ルーター \| ネットワーク	1172
8	チェックアウト \| バージョン管理システム(開発)	1025
9	デーモン \| Linux	988
10	ネットワークアドレス \| ネットワーク	955
11	オーバーヘッド \| プログラミング	952
12	リバースエンジニアリング \| 開発	925
13	ASCII制御文字一覧表詳細	903
14	マッピング \| 開発	899
15	ニューロン \| 機械学習	892
16	フィルター \| 開発	872
17	スタック \| プログラミング	842
18	プロキシ \| ネットワーク	841
19	ファイルシステム \| 開発	835
20	分かち書き \| 形態素解析	834
	2025/12/25 1:02 更新