Webスクレイピング

Webスクレイピング（scraping）とは？

　状態:- 　閲覧数:2,381 　投稿日:2017-03-02 　更新日:2017-04-26 　

Webページへアクセスして、そのHTMLから必要なデータを抽出する処理
・WebページのHTMLを解析(parse)してデータを抽出
・取得したHTMLから任意の情報を抽出する技術・行為
・Webページ(1ページ全体)に対して処理を行う
・スパイダー(spider)とも呼ばれる

作業の流れ
・1. 対象Webサイトをクローリング
・2. 「クローリングしたHTML」からタイトルや記事本文をスクレイピング

スクレイピングをする７つの方法

A.正規表現を使う方法
B.XPathを使う方法
Python1.Beautiful Soupを使う方法
PHP1.Goutteを使う方法
PHP2.PHP Simple HTML DOM Parserを使う方法
PHP3.phpQueryを使う方法
JS1.cheerioを使う方法

A.正規表現を使う方法

　閲覧数:537　投稿日:2017-03-02　更新日:2017-03-02　

A.正規表現を使う方法

Pythonで正規表現を使う時はreモジュールを使用
・要素を指定して、値を抽出

コード例

▼HTML

<html>

  <head>

    <meta charset='utf-8' />

  </head>

  <body>

    <h1>クローリングとスクレイピング</h1>

    <div id="articleInfo">

      <p>

        <span class="timestamp">2017-3-2 21:15:35</span>

        <span class="author"><a href="http://programming-term.w4c.work/">プログラミング用語</a></span>

      </p>

    </div>

    <div id="articleText">

      ウェブサイトのクローリングとスクレイピングについて  



    </div>

  </body>

</html>

▼Python

#coding: utf-8

import re



#変数htmlには上記のHTMLがstrで代入されているとします。

#変数title, timestamp, author, author_link, bodyにそれぞれタイトル、投稿日時、著者、著者のリンク、記事本文が代入されます。



title = re.compile('\<h1\>(.+?)\<\/h1\>', re.MULTILINE|re.DOTALL).findall(html)[0]

timestamp = re.compile('\<div id="articleInfo"\>.+?\<span class="timestamp"\>(.+?)\<\/span\>', re.MULTILINE|re.DOTALL).findall(html)[0]

author_link, author = re.compile('\<div id="articleInfo"\>.+?\<span class="author"\>\<a href="(.+?)"\>(.+?)\<\/a\>\<\/span\>', re.MULTILINE|re.DOTALL).findall(html)[0]

body = re.compile('\<div id="articleText"\>(.+?)\<\/div\>', re.MULTILINE|re.DOTALL).findall(html)[0]

B.XPathを使う方法

　閲覧数:544　投稿日:2017-03-02　更新日:2017-03-02　

XPath

XML形式の文書の要素を指定する言語

Chromeブラウザを使用して「任意のHTML要素のXPath」を確認する手順
・1.要素の検証
・2.Elementsタブの任意の要素を右クリック
・3.Copy XPath でXPathを取得

PythonでXPathを使う時はlxmlモジュールを使用
・要素を指定して、値を抽出

コード例

▼HTML

<html>

  <head>

    <meta charset='utf-8' />

  </head>

  <body>

    <h1>クローリングとスクレイピング</h1>

    <div id="articleInfo">

      <p>

        <span class="timestamp">2017-3-2 21:15:35</span>

        <span class="author"><a href="http://programming-term.w4c.work/">プログラミング用語</a></span>

      </p>

    </div>

    <div id="articleText">

      ウェブサイトのクローリングとスクレイピングについて  



    </div>

  </body>

</html>

▼Python

#coding: utf-8

import urllib2

import lxml.html



#変数htmlには上記のHTMLがstrで代入されているとします。

dom = lxml.html.fromstring(html)



#変数title, timestamp, author, author_link, bodyにそれぞれタイトル、投稿日時、著者、著者のリンク、記事本文が代入されます。

title = dom.xpath('//h1')[0].text

timestamp = dom.xpath('//*[@id="articleInfo"]//*[@class="timestamp"]')[0].text

author = dom.xpath   ('//*[@id="articleInfo"]//*[@class="author"]/a')[0].text

author_link = dom.xpath   ('//*[@id="articleInfo"]//*[@class="author"]/a')[0].attrib['href']

body = dom.xpath('//*[@id="articleText"]')[0].text

Python1.Beautiful Soupを使う方法

　閲覧数:553　投稿日:2017-03-02　更新日:2017-03-02　

Beautiful Soup

Pythonモジュール
・HTMLを構文解析して要素の指定を手助けしてくれる
・要素を指定して、値を抽出

コード例

▼HTML

<html>

  <head>

    <meta charset='utf-8' />

  </head>

  <body>

    <h1>クローリングとスクレイピング</h1>

    <div id="articleInfo">

      <p>

        <span class="timestamp">2017-3-2 21:15:35</span>

        <span class="author"><a href="http://programming-term.w4c.work/">プログラミング用語</a></span>

      </p>

    </div>

    <div id="articleText">

      ウェブサイトのクローリングとスクレイピングについて  



    </div>

  </body>

</html>

▼Python

#coding: utf-8

from bs4 import BeautifulSoup

from datetime import datetime



#変数htmlには上記のHTMLがstrで代入されているとします。

soup = BeautifulSoup(html)



#変数title, timestamp, author, author_link, bodyにそれぞれタイトル、投稿日時、著者、著者のリンク、記事本文が代入されます。

title = soup.h1.find(text=True)

timestamp = soup.find(id='articleInfo').find(class_='timestamp').find(text=True)

author = soup.find(id='articleInfo').find(class_='author').find('a').find(text=True)

author_link = soup.find(id='articleInfo').find(class_='author').find('a').get('href')

body = soup.find(id='articleText').find(text=True)

PHP1.Goutteを使う方法

　閲覧数:522　投稿日:2017-03-02　更新日:2017-03-03　

Goutte

PHPライブラリ

・PHPのWebスクレイピング・ライブラリ「Goutte」と「phpQuery」を比較してみた
・PHPでHTMLをパースして解析する簡単な方法

・Goutteでスクレイピングする際、「サイト単位」指定や「何階層まで」の指定はできる？

PHP2.PHP Simple HTML DOM Parserを使う方法

　閲覧数:546　投稿日:2017-03-02　更新日:2017-03-02　

PHP Simple HTML DOM Parser

PHPライブラリ

PHP3.phpQueryを使う方法

　閲覧数:498　投稿日:2017-03-03　更新日:2017-03-03　

PHP3.phpQueryを使う方法

・phpQueryでWEBスクレイピングしてみた

JS1.cheerioを使う方法

　閲覧数:547　投稿日:2017-03-03　更新日:2017-03-03　

JS1.cheerioを使う方法

・Node.js用のスクレイピングモジュール「cheerio-httpcli」の紹介
・Node.jsのスクレイピングモジュール「cheerio-httpcli」が第3形態に進化したようです
・くだらないAPIなんていらないよ – 2016年のウェブスクレイピング事情

クローリング

順位	ページタイトル抜粋	％
1	Webスクレイピング	100
2	システムインテグレーター	45
3	スイッチングハブ	44
4	転置インデックス	44
5	WebM	43
6	マッピング	40
7	Webアプリケーション	38
8	クローリング	38
9	Facebookピクセル	36
10	インクリメント	35
11	WebLogic	33
12	ランダムアクセス	33
13	クラス	31
14	ネットワークアドレス	30
15	O/Rマッピング	30
16	(計算機科学における)クラスタリング	29
17	スタック	29
18	デファクトスタンダード	29
19	クラス図	29
20	バッファリング【buffering】	29
	2026/1/05 16:33 更新

順位	ページタイトル抜粋	アクセス数
1	HTTP圧縮 \| ネットワーク	2
1	画像	2
1	ASCII \| データ形式(プログラミング)	2
1	プログラミング用語	2
1	クラス図 \| UML(開発)	2
1	データクラスタリング／クラスタリング／クラスタ解析／クラスター分析 \| 統計	2
2	ログイン	1
2	コネクション \| ネットワーク	1
2	MPEG-DASH \| コンテナフォーマット	1
2	ニューロン \| 機械学習	1
2	要素 \| プログラミング	1
2	リバースエンジニアリング \| 開発	1
2	導関数 \| 数学	1
2	アカウント登録	1
2	DNSレコード \| DNS(ネットワーク)	1
2	attribute \| データ形式(プログラミング)	1
2	スパイラルモデル \| 開発	1
2	! [rejected] master -> master (fetch first) \| Git(開発)	1
2	CGM \| Web標準知識	1
2	バイト \| 単位	1
	2026/1/5 1:02 更新