クローラ

検索エンジンクローラ

クローラ(Crawler)とは?

 状態:-  閲覧数:1,030  投稿日:2017-03-02  更新日:2017-03-02  
クローリングを行うプログラムのこと
・ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
・自動的にWebページのリンクを巡回して情報を 収集する
・情報収集する際にはスクレイピングも 行う
・「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる

用途
・主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される
・近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている


クローラー機能 / 基本動作


クローラー機能
・既知HTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す
・新しい文書を見つけた場合はデータベースへ登録する
・また、既知のファイルが存在しないことを検出した場合はデータベースから削除する

基本動作
・1. Webページ全体を見ていく
・2. スクレイピングをする
・3. 次のリンクを探して、 そのリンク先のWebページへ遷移する
・4. 次のリンクがなくなるまで1~3を繰り返す

主なクローラ

 閲覧数:220 投稿日:2017-03-02 更新日:2017-03-15 

検索エンジン


Google
Google クローラ
Googlebot

マイクロソフト
Bingbot

百度
・Baiduspider

NAVER
・Yetibot


クローラ


Anemone
・オープンソースのWebクローラー
・Ruby


クローリング

コメント投稿(ログインが必要)



週間人気ページランキング / 6-24 → 6-30
順位 ページタイトル抜粋 アクセス数
1 Flash Video | コンテナフォーマット | プログラミング用語 306
2 curl | HTTPクライアント(ネットワーク) | プログラミング用語 286
3 ルーター | ネットワーク | プログラミング用語 281
3 ユースケース | 開発 | プログラミング用語 281
4 ベクトル | 数学 | プログラミング用語 236
5 デーモン | Linux | プログラミング用語 227
6 正規表現 | プログラミング | プログラミング用語 194
7 YouTube | API | プログラミング用語 171
8 チェックアウト | バージョン管理システム(開発) | プログラミング用語 117
9 分かち書き | 形態素解析 | プログラミング用語 63
10 Linux | プログラミング用語 57
11 リバースエンジニアリング | 開発 | プログラミング用語 54
12 ネットワークアドレス | ネットワーク | プログラミング用語 50
13 PowerShell | スクリプト | プログラミング用語 44
14 クローラ | 検索エンジン | プログラミング用語 31
14 可搬性 | プログラミング | プログラミング用語 31
15 Subversion | バージョン管理システム(開発) | プログラミング用語 27
16 アンチパターン | プログラミング | プログラミング用語 11
17 プログラミング用語 9
18 deflate | ネットワーク | プログラミング用語 8
2022/7/1 1:01 更新