A.正規表現を使う方法

カテゴリー: クローラ 　閲覧数:535　配信日:2017-03-02 21:49

Pythonで正規表現を使う時はreモジュールを使用
・要素を指定して、値を抽出

コード例

▼HTML

<html>

  <head>

    <meta charset='utf-8' />

  </head>

  <body>

    <h1>クローリングとスクレイピング</h1>

    <div id="articleInfo">

      <p>

        <span class="timestamp">2017-3-2 21:15:35</span>

        <span class="author"><a href="http://programming-term.w4c.work/">プログラミング用語</a></span>

      </p>

    </div>

    <div id="articleText">

      ウェブサイトのクローリングとスクレイピングについて  



    </div>

  </body>

</html>

▼Python

#coding: utf-8

import re



#変数htmlには上記のHTMLがstrで代入されているとします。

#変数title, timestamp, author, author_link, bodyにそれぞれタイトル、投稿日時、著者、著者のリンク、記事本文が代入されます。



title = re.compile('\<h1\>(.+?)\<\/h1\>', re.MULTILINE|re.DOTALL).findall(html)[0]

timestamp = re.compile('\<div id="articleInfo"\>.+?\<span class="timestamp"\>(.+?)\<\/span\>', re.MULTILINE|re.DOTALL).findall(html)[0]

author_link, author = re.compile('\<div id="articleInfo"\>.+?\<span class="author"\>\<a href="(.+?)"\>(.+?)\<\/a\>\<\/span\>', re.MULTILINE|re.DOTALL).findall(html)[0]

body = re.compile('\<div id="articleText"\>(.+?)\<\/div\>', re.MULTILINE|re.DOTALL).findall(html)[0]

順位	ページタイトル抜粋	アクセス数
1	自然数 \| 数学	1
1	ゲストコメント一覧ページ	1
1	CSRF \| セキュリティ	1
1	Chromecast \| 装置	1
1	偏微分記号「∂」／ x³y² を x について偏微分／ x³y² を y について偏微分／x³y² を z について偏微分	1
1	スカラー \| プログラミング	1
1	有理数 \| 数学	1
1	可搬性 \| プログラミング	1
1	関数 \| プログラミング	1
1	Morris-Pratt algorithm \| 探索アルゴリズム(アルゴリズム)	1
1	アーキテクト \| 開発	1
1	計算可能関数 \| アルゴリズム	1
1	ワンライナー \| プログラミング	1
1	ベクトルの内積	1
1	フェーズ \| 開発	1
1	クラスメソッド \| クラス(プログラミング)	1
1	memcached \| ネットワーク	1
1	ネットワークアドレス \| ネットワーク	1
1	転置インデックス \| 全文検索エンジン(検索エンジン)	1
1	カテゴリ一覧	1
	2025/12/26 1:02 更新

順位

ページタイトル抜粋

アクセス数

偏微分記号「∂」／ x³y² を x について偏微分／ x³y² を y について偏微分／x³y² を z について偏微分

Morris-Pratt algorithm | 探索アルゴリズム(アルゴリズム)

クラスメソッド | クラス(プログラミング)

memcached | ネットワーク

ネットワークアドレス | ネットワーク

転置インデックス | 全文検索エンジン(検索エンジン)

カテゴリ一覧

2025/12/26 1:02 更新

順位	ページタイトル抜粋	アクセス数
1	Flash Video \| コンテナフォーマット	3717
2	プログラミング用語	1443
3	YouTube \| API	1295
4	ベクトル \| 数学	1292
5	curl \| HTTPクライアント(ネットワーク)	1263
6	ユースケース \| 開発	1256
7	ルーター \| ネットワーク	1172
8	チェックアウト \| バージョン管理システム(開発)	1025
9	デーモン \| Linux	989
10	ネットワークアドレス \| ネットワーク	956
11	オーバーヘッド \| プログラミング	952
12	リバースエンジニアリング \| 開発	925
13	ASCII制御文字一覧表詳細	903
14	マッピング \| 開発	899
15	ニューロン \| 機械学習	892
16	フィルター \| 開発	872
17	スタック \| プログラミング	842
18	プロキシ \| ネットワーク	841
19	ファイルシステム \| 開発	835
20	分かち書き \| 形態素解析	834
	2025/12/26 1:02 更新

順位

ページタイトル抜粋

アクセス数

Flash Video | コンテナフォーマット

3717

プログラミング用語

1443

YouTube | API

1295

ベクトル | 数学

1292

curl | HTTPクライアント(ネットワーク)