クローラ

検索エンジンクローラ

クローラ(Crawler)とは?

 状態:-  閲覧数:1,747  投稿日:2017-03-02  更新日:2017-03-02  
クローリングを行うプログラムのこと
・ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
・自動的にWebページのリンクを巡回して情報を 収集する
・情報収集する際にはスクレイピングも 行う
・「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる

用途
・主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される
・近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている


クローラー機能 / 基本動作


クローラー機能
・既知HTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す
・新しい文書を見つけた場合はデータベースへ登録する
・また、既知のファイルが存在しないことを検出した場合はデータベースから削除する

基本動作
・1. Webページ全体を見ていく
・2. スクレイピングをする
・3. 次のリンクを探して、 そのリンク先のWebページへ遷移する
・4. 次のリンクがなくなるまで1~3を繰り返す

主なクローラ

 閲覧数:340 投稿日:2017-03-02 更新日:2017-03-15 

検索エンジン


Google
Google クローラ
Googlebot

マイクロソフト
Bingbot

百度
・Baiduspider

NAVER
・Yetibot


クローラ


Anemone
・オープンソースのWebクローラー
・Ruby


クローリング

コメント投稿(ログインが必要)