B.XPathを使う方法 | プログラミング用語

カテゴリー: クローラ 　閲覧数:542　配信日:2017-03-02 21:49

XPath

XML形式の文書の要素を指定する言語

Chromeブラウザを使用して「任意のHTML要素のXPath」を確認する手順
・1.要素の検証
・2.Elementsタブの任意の要素を右クリック
・3.Copy XPath でXPathを取得

PythonでXPathを使う時はlxmlモジュールを使用
・要素を指定して、値を抽出

コード例

▼HTML

<html>

  <head>

    <meta charset='utf-8' />

  </head>

  <body>

    <h1>クローリングとスクレイピング</h1>

    <div id="articleInfo">

      <p>

        <span class="timestamp">2017-3-2 21:15:35</span>

        <span class="author"><a href="http://programming-term.w4c.work/">プログラミング用語</a></span>

      </p>

    </div>

    <div id="articleText">

      ウェブサイトのクローリングとスクレイピングについて  



    </div>

  </body>

</html>

▼Python

#coding: utf-8

import urllib2

import lxml.html



#変数htmlには上記のHTMLがstrで代入されているとします。

dom = lxml.html.fromstring(html)



#変数title, timestamp, author, author_link, bodyにそれぞれタイトル、投稿日時、著者、著者のリンク、記事本文が代入されます。

title = dom.xpath('//h1')[0].text

timestamp = dom.xpath('//*[@id="articleInfo"]//*[@class="timestamp"]')[0].text

author = dom.xpath   ('//*[@id="articleInfo"]//*[@class="author"]/a')[0].text

author_link = dom.xpath   ('//*[@id="articleInfo"]//*[@class="author"]/a')[0].attrib['href']

body = dom.xpath('//*[@id="articleText"]')[0].text

順位	ページタイトル抜粋	アクセス数
1	^ ／キャレット \| 数学	15
2	可搬性 \| プログラミング	2
2	ASCII制御文字一覧表詳細	2
2	UPS \| ネットワーク	2
3	2階偏微分	1
3	gTLD \| ネットワーク	1
3	cron \| デーモン(Linux)	1
3	A.線形探索	1
3	マッピング \| 開発	1
3	パッケージ管理(開発) カテゴリー	1
3	deflate \| ネットワーク	1
3	フェーズ \| 開発	1
3	継承	1
3	Plone \| software	1
3	Knuth–Morris–Pratt algorithm border \| 探索アルゴリズム(アルゴリズム)	1
3	Hyper Estraier \| 全文検索エンジン(検索エンジン)	1
3	特徴量 \| 機械学習	1
3	2の補数 \| 数学	1
3	全文検索エンジン(検索エンジン) カテゴリー	1
3	プリミティブ \| プログラミング	1
	2025/12/21 1:02 更新

順位

ページタイトル抜粋

アクセス数

Knuth–Morris–Pratt algorithm border | 探索アルゴリズム(アルゴリズム)

Hyper Estraier | 全文検索エンジン(検索エンジン)

特徴量 | 機械学習

2の補数 | 数学

全文検索エンジン(検索エンジン) カテゴリー

プリミティブ | プログラミング

2025/12/21 1:02 更新

順位	ページタイトル抜粋	アクセス数
1	Flash Video \| コンテナフォーマット	3717
2	プログラミング用語	1443
3	YouTube \| API	1295
4	ベクトル \| 数学	1292
5	curl \| HTTPクライアント(ネットワーク)	1263
6	ユースケース \| 開発	1256
7	ルーター \| ネットワーク	1172
8	チェックアウト \| バージョン管理システム(開発)	1025
9	デーモン \| Linux	988
10	ネットワークアドレス \| ネットワーク	955
11	オーバーヘッド \| プログラミング	952
12	リバースエンジニアリング \| 開発	925
13	ASCII制御文字一覧表詳細	903
14	マッピング \| 開発	899
15	ニューロン \| 機械学習	892
16	フィルター \| 開発	872
17	スタック \| プログラミング	842
18	プロキシ \| ネットワーク	841
19	ファイルシステム \| 開発	835
20	分かち書き \| 形態素解析	834
	2025/12/21 1:02 更新

順位

ページタイトル抜粋

アクセス数

Flash Video | コンテナフォーマット

3717

プログラミング用語

1443

YouTube | API

1295

ベクトル | 数学

1292

curl | HTTPクライアント(ネットワーク)