クローラ(Crawler)とは?
状態:-
閲覧数:1,825
投稿日:2017-03-02
更新日:2017-03-02
クローリングを行うプログラムのこと
・ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
・自動的にWebページのリンクを巡回して情報を 収集する
・情報収集する際にはスクレイピングも 行う
・「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる
用途
・主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される
・近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている
クローラー機能
・既知HTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す
・新しい文書を見つけた場合はデータベースへ登録する
・また、既知のファイルが存在しないことを検出した場合はデータベースから削除する
基本動作
・1. Webページ全体を見ていく
・2. スクレイピングをする
・3. 次のリンクを探して、 そのリンク先のWebページへ遷移する
・4. 次のリンクがなくなるまで1~3を繰り返す
・ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
・自動的にWebページのリンクを巡回して情報を 収集する
・情報収集する際にはスクレイピングも 行う
・「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる
用途
・主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される
・近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている
クローラー機能 / 基本動作
クローラー機能
・既知HTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す
・新しい文書を見つけた場合はデータベースへ登録する
・また、既知のファイルが存在しないことを検出した場合はデータベースから削除する
基本動作
・1. Webページ全体を見ていく
・2. スクレイピングをする
・3. 次のリンクを探して、 そのリンク先のWebページへ遷移する
・4. 次のリンクがなくなるまで1~3を繰り返す
主なクローラ
検索エンジン
・Google クローラ
・Googlebot
マイクロソフト
・Bingbot
百度
・Baiduspider
NAVER
・Yetibot
クローラ
Anemone
・オープンソースのWebクローラー
・Ruby