Apache Solr とは?
状態:-
閲覧数:1,093
投稿日:2017-03-05
更新日:2017-03-17
オープンソースの全文検索システム
・Javaベース
・Apacheソフトウェア財団のLuceneプロジェクトのサブプロジェクトとして開発されている
・全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション
特徴
・速い
転置インデクス方式
・インデクス作成時に文書を解析して単語に切り分け、単語ごとにそれが含まれている文書の情報を記録しておく
・予め転置インデクスを作成しておくことで、ある単語で検索した時に、その単語がどの文書に含まれているのかをすぐに探しだすことができる
・インデクス作成には時間を要するが、一旦インデクスを作成した後は、高速に検索できるのが利点
インデックスレプリケーション
・あるSolrサーバで生成したインデックスデータを、他のSolrサーバに自動でコピー(複製同期)することが可能
分散インデックス
・複数のSolrサーバに分散しているインデックスから返される検索結果を取りまとめて処理する
・インデックスが大規模になった時にマスタースレーブを作ったり、インデックスを分割したりとサーバーの負荷を軽減して高速検索を可能にする
適合度(Score)
・検索結果を「適合度(Score)」によって順序付ける
・適合度の算出は、「tf-idf」と呼ばれる方法で、文章中の単語の重み付けを行う
ファセット機能
・絞り込み
・単語、クエリ、範囲に対する件数を返す
javaのインストール
・Javaベース
・Apacheソフトウェア財団のLuceneプロジェクトのサブプロジェクトとして開発されている
・全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション
特徴
・速い
機能
転置インデクス方式
・インデクス作成時に文書を解析して単語に切り分け、単語ごとにそれが含まれている文書の情報を記録しておく
・予め転置インデクスを作成しておくことで、ある単語で検索した時に、その単語がどの文書に含まれているのかをすぐに探しだすことができる
・インデクス作成には時間を要するが、一旦インデクスを作成した後は、高速に検索できるのが利点
インデックスレプリケーション
・あるSolrサーバで生成したインデックスデータを、他のSolrサーバに自動でコピー(複製同期)することが可能
分散インデックス
・複数のSolrサーバに分散しているインデックスから返される検索結果を取りまとめて処理する
・インデックスが大規模になった時にマスタースレーブを作ったり、インデックスを分割したりとサーバーの負荷を軽減して高速検索を可能にする
適合度(Score)
・検索結果を「適合度(Score)」によって順序付ける
・適合度の算出は、「tf-idf」と呼ばれる方法で、文章中の単語の重み付けを行う
ファセット機能
・絞り込み
・単語、クエリ、範囲に対する件数を返す
要件
javaのインストール