クローリングとは?
状態:-
閲覧数:2,164
投稿日:2017-03-02
更新日:2017-03-03
WebサイトからHTMLや任意の情報を取得する技術・行為
・Webページ内にある全てのリンクを巡回して、深堀りしながら目的の情報を取得する方法
どうやってリンクを探すの?
・スクレイピングを行う
・HTMLタグを解析して、リンク先を取得
A.UNIXを使う方法
Python1.Scrapyを使う方法
Ruby1.Anemoneを使う方法
Ruby2.mechanizeを使う方法
JS1.PhantomJSを使う方法
・Webページ内にある全てのリンクを巡回して、深堀りしながら目的の情報を取得する方法
どうやってリンクを探すの?
・スクレイピングを行う
・HTMLタグを解析して、リンク先を取得
クローリングをする5つの方法
A.UNIXを使う方法
Python1.Scrapyを使う方法
Ruby1.Anemoneを使う方法
Ruby2.mechanizeを使う方法
JS1.PhantomJSを使う方法
A.UNIXを使う方法
A.UNIXを使う方法
Webデータ収集(その1)~ UNIX wget コマンドで、対象ウェブページ自身を含めて リンク先 指定階層分 先の全ディレクトリのなかから、画像ファイルだけを全量ダウンロード
Webデータ収集(その2)~ UNIX wget コマンドで、対象ウェブページ自身を含めて リンク先 指定階層分 先の全ディレクトリのなかから、zipファイルだけを全量ダウンロード
首相官邸トップページから4階層先のリンク先 全ディレクトリに自動アクセスして、jpg / png / gif 形式のファイルだけを全量ダウンロード実行
日本銀行の「調査・研究」タブトップページから、4階層先のリンク先までの全ディレクトリに自動アクセスして、pdf / csv / xls 形式のファイルだけを全量ダウンロード実行
・Linux環境でwgetコマンドを使ってウェブからhtmlデータを取得したい
Python1.Scrapyを使う方法
Scrapy
A Fast and Powerful Scraping and Web Crawling Framework
・GitHub - scrapy/scrapy: Scrapy, a fast high-level web crawling & scraping framework for Python.
・Python 3 で Webクローリング & スクレイピング 初心者まとめ
・Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る
・Scrapy入門(1) - Qiita
・Pythonでスクレイピング - Scrapy入門最初の2歩目 - Qiita
・PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
・Python製クローラー「Scrapy」の始め方メモ - 双六工場日誌
・Scrapy 1.0が公開されました - orangain flavor
・Python: Scrapy と BeautifulSoup4 を使った快適 Web スクレイピング | CUBE SUGAR STORAGE
・Scrapyを使ってファイナンス情報のスクレイピング - In the SOAP
・Scrapyをインストールしてバックグラウンドでスクレイピングするまで – TECH PRESS
・Python製のクローラー「scrapy」の利用方法や初期設定など纏め - ボールを蹴りたいシステムエンジニア
・scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング - amacbee's blog
・Scrapyチュートリアル - DISTRICT 37
・Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう - 無駄と文化
・Scrapy でエラーハンドリング for v1.1.3 (※一部未解決) - 無駄と文化
Ruby1.Anemoneを使う方法
Anemone
Ruby Web-Spider Framework
・Ruby製のクローラーgem
・階層を辿るsleep機能 など基本的な機能を網羅
最終更新日
・May 31, 2012
・Anemoneによるクローラー入門
・Anemone(Ruby)の使い方 - Rubyでクローラーを作る
・Anemoneによるクローラー入門
・Rubyによるクローラー開発技法 vol3
・Anemone gemでのクロールメモ
・Anemoneというクローラーフレームワークを使ってみる
・gems: Webクローラ anemone を使ってみる
Ruby2.mechanizeを使う方法
JS1.PhantomJSを使う方法
JS1.PhantomJSを使う方法
・PhantomJSのクローリングでwindow.openに対応する
・PHPでクローリングしてみたいのですが、可能でしょうか?
・クローラー/Webスクレイピング Advent Calendar 2016