Pythonのlxmlライブラリの使い方【初心者向け】
初心者向けにPythonのlxmlライブラリの使い方について解説しています。このライブラリを使うことによってxmlやhtml を扱うことができます。導入と各処理の方法について実際に動かしながら学習していきましょう。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
Pythonのlxmlライブラリの使い方について解説します。
そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
lxmlライブラリの使い方について詳しく説明していくね!
お願いします!
lxmlとは
lxml とは、 Python で xml や html を扱うためのライブラリです。スクレイピングと言って、Webサイトの html を解析して情報を抽出するプログラムを作成する場合などに多く用いられます。
Python で html を解析するには、「htmllib」や「Beautiful Soup」といったモジュールを使う方法がありますが、 lxml は、それらと比較して、より高速・柔軟に html を解析できることが特徴と言われています。
詳しい情報は公式ドキュメントを参考にしてください。
また、「Beautiful Soup」を使用したスクレイピングについては以下の記事も参考にしてください。
lxmlの使い方
今回は、Requests と lxml を利用する方法を紹介します。
まずはそれぞれのライブラリをインストールしましょう。パソコンが Macならターミナル、Windowsならコマンドプロンプトから以下のコマンドでインストールします。なお、事前に Python のインストールが必要です。
pip install requests pip install lxml
実際に書いてみよう
今回のサンプルプログラムでは、Googleニュースのサイトから、ヘッドラインのタイトルの一覧を取得しています。上記でご紹介した「Beautiful Soup」を使用したスクレイピングのプログラムと同様の内容になっていますので、ライブラリによる違いも確認してください。
import requests import lxml.html # WebサイトのURLを指定 url = "https://news.google.com/?hl=ja&gl=JP&ceid=JP:ja" # Requestsを利用してWebページを取得する r = requests.get(url) # lxmlを利用してWebページを解析する html = lxml.html.fromstring(r.text) # lxmlのfindallを利用して、ヘッドラインのタイトルを取得する elems = html.findall(".//a[@class='ipQwMb Q7tWef']//span") for elem in elems: print(elem.text)
実行結果は以下のようになります(その時のニュースによって異なります)。
米国:国務長官、訪朝中止へ 「進展ない」トランプ氏指示 - 毎日新聞 米朝首脳会談や訪朝中止に批判 トランプ氏の発言が生んだ誤算も トランプと金正恩のラブゲームの裏を探る(田中良紹) - Yahoo!ニュース 米国務長官の訪朝中止 トランプ氏、非核化停滞に不満(写真=AP) 【激動・朝鮮半島】米朝「曖昧合意」のツケが表面化 事前協議難航でポンペオ氏訪朝中止 飲酒運転事故おこし失ったもの 人生語る元公務員の思い 「認識の甘さまだ」飲酒運転撲滅へ 3児死亡事故12年 3児死亡事故12年:福岡の現場付近で飲酒検問 - 毎日新聞 飲酒運転「約束のゼロ」きっと 3児死亡事故から12年 九州7県の死者、昨年比5人増 飲酒運転ゼロへ決意新た 福岡・海の中道3児死亡事故から12年 オスプレイ受け入れ 佐賀県知事の裏切りと国の“札束作戦”
この記事を監修してくれた方
太田和樹(おおたかずき) 普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。 開発実績:画像認識技術を活用した駐車場混雑状況把握(実証実験)、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント 地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。 |
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
TechAcademyでは、初心者でもPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。
挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。