Python1.Beautiful Soupを使う方法 | プログラミング用語

カテゴリー: クローラ 　閲覧数:477　配信日:2017-03-02 21:49

Beautiful Soup

Pythonモジュール
・HTMLを構文解析して要素の指定を手助けしてくれる
・要素を指定して、値を抽出

コード例

▼HTML

<html>

  <head>

    <meta charset='utf-8' />

  </head>

  <body>

    <h1>クローリングとスクレイピング</h1>

    <div id="articleInfo">

      <p>

        <span class="timestamp">2017-3-2 21:15:35</span>

        <span class="author"><a href="http://programming-term.w4c.work/">プログラミング用語</a></span>

      </p>

    </div>

    <div id="articleText">

      ウェブサイトのクローリングとスクレイピングについて  



    </div>

  </body>

</html>

▼Python

#coding: utf-8

from bs4 import BeautifulSoup

from datetime import datetime



#変数htmlには上記のHTMLがstrで代入されているとします。

soup = BeautifulSoup(html)



#変数title, timestamp, author, author_link, bodyにそれぞれタイトル、投稿日時、著者、著者のリンク、記事本文が代入されます。

title = soup.h1.find(text=True)

timestamp = soup.find(id='articleInfo').find(class_='timestamp').find(text=True)

author = soup.find(id='articleInfo').find(class_='author').find('a').find(text=True)

author_link = soup.find(id='articleInfo').find(class_='author').find('a').get('href')

body = soup.find(id='articleText').find(text=True)

順位	ページタイトル抜粋	アクセス数
1	ASCII制御文字一覧表詳細	4
2	ベクトルの内積	1
2	VAST \| 広告	1
2	C言語(言語) カテゴリー	1
2	ログイン	1
2	OAuth 1.0 と OAuth 2.0 の違い／比較一覧表	1
2	activeCollab \| software	1
2	スループット \| 開発	1
2	mod_deflate \| ネットワーク	1
2	有理数 \| 数学	1
2	プログラミング用語	1
2	DNS(ネットワーク) カテゴリー	1
2	正規表現 \| プログラミング	1
2	純虚数	1
2	Flash Video \| コンテナフォーマット	1
	2025/7/6 1:01 更新

順位

ページタイトル抜粋

アクセス数

OAuth 1.0 と OAuth 2.0 の違い／比較一覧表

activeCollab | software

Flash Video | コンテナフォーマット

2025/7/6 1:01 更新

順位	ページタイトル抜粋	アクセス数
1	Flash Video \| コンテナフォーマット	3712
2	プログラミング用語	1428
3	YouTube \| API	1294
4	ベクトル \| 数学	1287
5	curl \| HTTPクライアント(ネットワーク)	1257
6	ユースケース \| 開発	1252
7	ルーター \| ネットワーク	1171
8	チェックアウト \| バージョン管理システム(開発)	1023
9	デーモン \| Linux	984
10	ネットワークアドレス \| ネットワーク	951
11	オーバーヘッド \| プログラミング	947
12	リバースエンジニアリング \| 開発	920
13	ニューロン \| 機械学習	888
13	マッピング \| 開発	888
14	フィルター \| 開発	871
15	スタック \| プログラミング	839
15	プロキシ \| ネットワーク	839
16	ファイルシステム \| 開発	834
17	分かち書き \| 形態素解析	831
18	OpenID \| 認証プロトコル(API)	824
	2025/7/6 1:02 更新

順位

ページタイトル抜粋

アクセス数

Flash Video | コンテナフォーマット

3712

プログラミング用語

1428

YouTube | API

1294

ベクトル | 数学

1287

curl | HTTPクライアント(ネットワーク)