クローリング

検索エンジンクローラ

クローリングとは?

 状態:-  閲覧数:2,164  投稿日:2017-03-02  更新日:2017-03-03  
WebサイトからHTMLや任意の情報を取得する技術・行為
・Webページ内にある全てのリンクを巡回して、深堀りしながら目的の情報を取得する方法

どうやってリンクを探すの?
・スクレイピングを行う
・HTMLタグを解析して、リンク先を取得


クローリングをする5つの方法


A.UNIXを使う方法
Python1.Scrapyを使う方法
Ruby1.Anemoneを使う方法
Ruby2.mechanizeを使う方法
JS1.PhantomJSを使う方法

A.UNIXを使う方法

Python1.Scrapyを使う方法

 閲覧数:414 投稿日:2017-03-02 更新日:2017-03-03 

Scrapy


A Fast and Powerful Scraping and Web Crawling Framework
GitHub - scrapy/scrapy: Scrapy, a fast high-level web crawling & scraping framework for Python.

Python 3 で Webクローリング & スクレイピング 初心者まとめ
Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る
Scrapy入門(1) - Qiita
Pythonでスクレイピング - Scrapy入門最初の2歩目 - Qiita
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
Python製クローラー「Scrapy」の始め方メモ - 双六工場日誌
Scrapy 1.0が公開されました - orangain flavor
Python: Scrapy と BeautifulSoup4 を使った快適 Web スクレイピング | CUBE SUGAR STORAGE
Scrapyを使ってファイナンス情報のスクレイピング - In the SOAP
Scrapyをインストールしてバックグラウンドでスクレイピングするまで – TECH PRESS
Python製のクローラー「scrapy」の利用方法や初期設定など纏め - ボールを蹴りたいシステムエンジニア
scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング - amacbee's blog
Scrapyチュートリアル - DISTRICT 37
Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう - 無駄と文化
Scrapy でエラーハンドリング for v1.1.3 (※一部未解決) - 無駄と文化


Ruby1.Anemoneを使う方法

 閲覧数:382 投稿日:2017-03-02 更新日:2017-03-03 

Anemone


Ruby Web-Spider Framework
・Ruby製のクローラーgem
・階層を辿るsleep機能 など基本的な機能を網羅

最終更新日
・May 31, 2012

Anemoneによるクローラー入門
Anemone(Ruby)の使い方 - Rubyでクローラーを作る
Anemoneによるクローラー入門
Rubyによるクローラー開発技法 vol3
Anemone gemでのクロールメモ
Anemoneというクローラーフレームワークを使ってみる
gems: Webクローラ anemone を使ってみる

Ruby2.mechanizeを使う方法

 閲覧数:376 投稿日:2017-03-03 更新日:2017-03-03 

mechanize


Rubyライブラリ
Rails スクレイピング手法 Mechanizeの使い方
楽々スクレイピング! Ruby Mechanizeの使い方



クローリングとスクレイピング






JS1.PhantomJSを使う方法

 閲覧数:394 投稿日:2017-03-03 更新日:2017-03-03 

JS1.PhantomJSを使う方法


PhantomJSのクローリングでwindow.openに対応する









PHPでクローリングしてみたいのですが、可能でしょうか?
クローラー/Webスクレイピング Advent Calendar 2016


クローラ

Webスクレイピング

コメント投稿(ログインが必要)