オーダーメイドコース
icon
icon

Rubyの正規表現で文字列の抽出を行う方法【初心者向け】

初心者向けにRubyの正規表現で文字列の抽出を行う方法について解説しています。文字列から指定の条件に合う部分を抜き出す方法について、実際にサンプルコードを書いて説明しているので、確認しながら学習しましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

Rubyの正規表現で文字列の抽出を行う方法について解説します。

 
そもそもRubyについてよく分からないという方は、Rubyとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプRuby講座の内容をもとに紹介しています。

 

田島悠介

今回は、Rubyに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

正規表現で文字列の抽出を行う方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

正規表現とは

正規表現はある文字列のパターンを表現するための表現方法で、一つの正規表現で複数の文字列を表現することになります。

つまり、一つの文字列が複数の文字列と等価であるということが言えるのが正規表現です。

Ruby では `/` で囲まれた中が正規表現として評価されます。 `/regexp/` というような書き方をします。

とはいっても、実際に利用しなければよくわからないでしょう。なので、正規表現の代表的な使い方である文字列からの抽出をここでは紹介します。

 

正規表現で文字列を抽出する方法(=~演算子、!~演算子など)

ある文字列の中から、特定の条件にマッチする文字列だけを抜き出したいとします。その時には以下のメソッドや演算子が利用できます。

rb

if string =~ /regexp/
  puts $&
end

if mo = string.match(/regexp/)
  puts mo[0]
end

if string !~ /regexp/
  puts 'No Match!'
end

`=~` は `string` に `/regexp/` にマッチしたものがあれば `true` を返却し、なければ `false` を返却します。マッチしたものがあった場合は `$&` や `$1` といったグローバル変数にアクセスすることで、そのマッチ結果を取得できます。

`match` はStringクラスに存在するメソッドでマッチするものがあれば `MatchData` オブジェクトを返却し、そうでなければ `nil` を返却します。

MatchData オブジェクトはマッチした文字列に順番にアクセスできるので `[0]` を利用します。

`!~` は `=~` の否定となり、つまりマッチしたものがなければ `true` を返却します。この場合はマッチしたものがないはずなので、 `$&` といったグローバル変数には何も値は入っていません。

 

[PR] 未経験からWebエンジニアを目指す方法とは

実際に書いてみよう

よく利用される正規表現として、 ユーザーの入力が携帯電話番号かどうかを判定するというものがあるのでこちらを記述してみましょう。

日本国内の携帯電話(PHP含む)は先頭が `070` か `080` か `090` で始まり、その後にハイフン、そして四桁の数字、ハイフン、四桁の数字となります。

これを正規表現で記述すると `/(070|080|090)-d{4}-d{4}/` となります。ではこれを利用して、

rb

regexp = /(070|080|090)-d{4}-d{4}/
phone = '090-1234-5678'
tel = '03-1234-5678'
unknown = '+81-090-1234-5678'

def correct(number)
  puts "#{number} is phone number"
end

correct($&) if phone =~ regexp #=> "090-1234-5678 is phone number"
correct($&) if tel =~ regexp
correct($&) if unknown =~ regexp #=> "090-1234-5678 is phone number"

実際に `correct` が実行されるのは `phone` と `unknown` の場合です。 `unknown` は `+81`、つまり国際電話識別番号がついた日本の携帯電話になります。

また、今回の正規表現は先頭から末尾まで完全に一致している必要が無い記述方式のため、この場合もマッチし、マッチした部分が取得できます。

正規表現はその表現方法が多様なため、正しく利用するのはとても難しいものになります。

ただし、正しい知識を身につけて適切な箇所で利用できればこれほど強力なツールも類を見ません。是非活用できるようになりましょう。

 

監修してくれたメンター

大塚 颯斗

Ruby on Rails, PHP, Go を中心としたウェブアプリケーションエンジニアとして都内のウェブサービスを提供する企業に在籍。
最近はPHPを主に書きながら、オブジェクト指向をうまく適用していくことに関心を寄せています。

家で飼っている猫が好きだが、何故かすぐに猫に攻撃されて嫌われているかもしれない、というのが悩み。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもRuby on Railsを使ったプログラミングを習得できるオンラインブートキャンプRuby講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。