PythonでXPathを利用しXML形式の文書から特定の要素を抽出する方法を現役エンジニアが解説【初心者向け】
初心者向けにPythonでXPathを利用する方法について現役エンジニアが解説しています。XPathとはXML形式の文書から特定の要素を抽出するための言語のことです。Pythonではlxmlというパッケージを使います。Webスクレイピングなどに使うことが出来ます。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
PythonでXPathを利用する方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。
Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
PythonでXPathを利用する方法について詳しく説明していくね!
お願いします!
XPathとは
XPathとは、XML Path Languageの略でXML形式の文書から特定の要素を抽出するための言語のことです。
XMLはHTMLの形式とよく似ており、HTMLにも対応しています。Webからデータ情報を収集する際に用いられるスクレイピングはまさにXPathを使って要素の抽出を行っています。
これからWebスクレイピングを始めたい方はXPathを知っておくといいでしょう。
lxmlのxpath関数の使い方
lxmlはPythonでXML構文を解析するためのパッケージになっています。pipでインストールする必要があるので以下の1行でインストールできます。
pip install lxml
まずは解析したい文書の形式を指定する必要があります。冒頭でも述べたとおり、lxmlではHTMLやXMLのデータを読み込むことができます。
そこで今回は実際のスクレイピングを想定してHTMLを読み込む方法を紹介します。まずは、HTMLを読み込むためにPythonの標準モジュールであるurllibをつかってHTMLをしゅとくします。なお、今回はexample.comを題材にHTMLの読み込みを行います。それでは、example.comのHTMLソースを取得していきます。
from urllib import request source = request.urlopen("https://example.com") data = source.read() print(data.decode())
ここまででexample.comのHTMLの中身を見ることができるようになったと思います。ここからlxmlの出番です。先程読み込んだHTMLのデータを文字列として読み込んで、 html.fromstringでXPathを使える状態にします。
load_html = html.fromstring(str(data))
いよいよHTMLから要素を抽出しますが、ここで抽出するデータをXPathで指定する方法を紹介します。先程urllibで取得したHTMLを見てみます。
<!doctype html> <html> <head> <title>Example Domain</title> <meta charset="utf-8" /> <meta http-equiv="Content-type" content="text/html; charset=utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1" /> <style type="text/css"> body { background-color: #f0f0f2; margin: 0; padding: 0; font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif; } div { width: 600px; margin: 5em auto; padding: 2em; background-color: #fdfdff; border-radius: 0.5em; box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02); } a:link, a:visited { color: #38488f; text-decoration: none; } @media (max-width: 700px) { div { margin: 0 auto; width: auto; } } </style> </head> <body> <div> <h1>Example Domain</h1> <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p> <p><a href="https://www.iana.org/domains/example">More information...</a></p> </div> </body> </html>
HTMLを書いたことある方ならご存知のことですが、HTMLはタグによってツリー構造になっており、サイトによってその構造が違います。
今回はこの中からh1タグに記載されている内容を取り出してみます。h1タグの中身を取り出すときには、html.xpath関数で//h1と指定すると取り出せます。また、xpath関数の戻り値はリストになっているのでh1データをすべて表示させるときはfor文を使うといいです。更にタグの中身を出すには、.textを付け加えます。
したがって中身を取り出すときは以下のコードになります。
h1_content = load_html.xpath("//h1") # タグの中身を取得 for content in h1_content: print(content.text)
実際に書いてみよう
先ほど紹介した内容をまとめたソースコードを以下の記載します。
from urllib import request from lxml import html source = request.urlopen("https://example.com") data = source.read() print(data.decode()) print("n---------------------------------------n") load_html = html.fromstring(str(data)) h1_content = load_html.xpath("//h1") # タグの中身を取得 for content in h1_content: print(content.text)
実行するとHTMLのソースとh1タグで抽出した内容が出力されます。
まとめ
今回はXPathの使い方を簡単なスクレイピングを交えて紹介しました。
この方法を使えばWebスクレイピングを簡単にできます。しかし、実際のサイトはもっと構造が複雑になってくるため、この方法でデータを抽出できなかったりデータに文字化けが出てきたりするので、本格的にスクレイピングをやりたい方は、XPathの他にも文字列操作やエラー処理などを適切に行なっていきましょう。
監修してくれたメンター
メンター三浦
モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。 TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。 |
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
TechAcademyでは、初心者でも、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。
また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。