オーダーメイドコース
icon
icon

RubyでXPathを取得する方法を現役エンジニアが解説【初心者向け】

初心者向けにRubyでXPathを取得する方法について解説しています。XPathはタグを階層構造にして取得したりすることが出来るもので、スクレイピングなどに使用さえます。特定のHTMLタグを取得することが出来ます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

RubyでXPathを取得する方法について解説します。

 
そもそもRubyについてよく分からないという方は、Rubyとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプRuby講座の内容をもとに紹介しています。

 

田島悠介

今回は、Rubyに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

XPathを取得する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

XPathとは

XpathとはXML文章の中の要素や属性値を指定することができるようにする言語です。HTMLもXpathを使ってHTML文章の中の要素を指定することができます。

Xpathはツリー構造から特定の要素や属性値を取得するためにロケーションパスを使います。ロケーションパスとはURLのように/html/body/divとして”/”で区切って指定する方法です。

 

XPathを取得する方法

nokogoriというスクレイピングできるRubyのライブラリーを使ってXpathを取得してみましょう。

 

require 'nokogiri'
file1 = File.read(ファイル名)
file2 = Nokogiri::XML(file1)
set = file2.xpath(ロケーションパス)

 

のように読み込まれたファイルに書かれている該当のロケーションパスを取得します。

[PR] 未経験からWebエンジニアを目指す方法とは

実際に書いてみよう

それでは実際に書いてみましょう!!

 

# diary.html
<html>
  <head>
    <title>
      <h1>日記帳</h1>
    </title>
  </head>
  <body>
    <div>
      <h2>日記内容</h2>
    </div>
      <h2>投稿日</h2>
    <div>
    </div>
  </body>
</html>

 

# diary.rb
require 'nokogiri'
d_file = File.read('diary.html')
file = Nokogiri::XML(d_file)
set = file.xpath('/html/head/title')
p set.text
#$ ruby diary.rb
#=>
#"n日記帳n"

 

file.xpath(‘/html/head/title’)
htmlタグの中のheadタグの中のtitleタグを取得しています。

こちらをsetに代入してset.text でテキストを出力しています。n日記帳nと出力されました。また、タグの数を数えるsizeメソッドで使われているタグの数も出力することもできます。

 

# diary.rb
require 'nokogiri'
d_file = File.read('diary.html')
file = Nokogiri::XML(d_file)
set = file.xpath('//div')
p set.size
#$ ruby diary.rb
#=> 2

 

こちらは//divで全てのdivタグを取得します。sizeでその数を出力しています。

 

監修してくれたメンター

町田耕

大学卒業後、塾の数学科講師として数年間勤めた後、会社の経営に携わる。

会社経営時代は主に財務関係が中心に担当していたが、インフラエンジニアの妻の勧めもありプログラミングを独学で学び始める。プログラミングのセミナーなど数多く受け、IT関連の受託開発会社に勤めた後、ITシステム開発会社を設立。

現在、システムの請負としての業務を行う傍らテックアカデミーのRuby on Railsのメンターも勤めている。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもRuby on Railsを使ったプログラミングを習得できるオンラインブートキャンプRuby講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。