icon
icon

Python3でMeCabを使う方法を現役エンジニアが解説【初心者向け】

初心者向けにPython3でMeCabを使う方法について現役エンジニアが解説しています。MeCabは形態素解析のライブラリで、文章を最小単位の構成要素に分解することが出来ます。他に辞書やパッケージをインストールして、Python3で形態素解析を行ってみましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

Python3でMeCabを使う方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Python3でMeCabを使う方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

MeCabとは

MeCabとは、日本で開発された「形態素解析エンジン」です。形態素解析というのは、自然言語処理の手法の一つで、文章をその最小単位の構成要素に分解していく手法のことです。

例えば、

「すもももももももものうち」

という文章を形態素解析すると、

「すもも / も / もも / も / もも / の / うち」

という形で文章の構成要素に分解することができます。

このような処理は自然言語処理とよばれる分野で非常に重要になってきます。自然言語処理の例であるGoogleアシスタントやSiriなどの音声認識では、認識した文章を形態素解析して人工知能と組み合わせることで様々な処理をおこなっています。

今回はこのMeCabの使い方について紹介します。

HomebrewでMeCabと辞書をインストールする

まずは、ターミナルで次のコマンドを実行することでMeCabと辞書ファイル(mecab-ipa)をインストールします。

$ brew install mecab
$ brew install mecab-ipadic

インストールが終了したら、

$ mecab

としてMeCabが起動するのを確認できたら、インストール完了です。

試しに文章を打ち込んでみると形態素解析をしたものが表示されることが確認できるのでやってみてください。

[PR] 未経験からWebエンジニアを目指す方法とは

mecab-ipadic-NEologdをインストールする

mecab-ipaという辞書だけではうまく形態素解析できないことがよくあります。

それは、地名や人名などの固有名詞が辞書に登録されていないからです。そこで、mecab-ipadic-NEologdという辞書もインストールします。

公式サイト(github)にインストール方法が載っています。

以下のコマンドを順に実行すれば、mecab-ipadic-NElogdをインストールすることができます。

$ cd ~/Downloads
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -h

これを実行して、

[install-mecab-ipadic-NEologd] : Install completed.

と表示されればインストール完了です。

pipでmecab-python3をインストールする

続いては、pythonからmecabを使うために、mecab-python3というパッケージをインストールします。次のコマンドを実行すると、インストールができます。

$ pip install mecab-python3

エラーが出る場合は

$ brew install swig

を実行してからインストールしてみてください。

Successfully installed mecab-python3-0.996.2

 

実際に形態素解析してみよう

ここまできてようやく実際の形態素解析ができます。

サンプルコード

import re
import MeCab
#形態素解析したい文章
data = "すもももももももものうち"
mecab  = MeCab.Tagger().parse(data)
lines = mecab .split('\n')
#各行ごとに文章の構成単位に分解
items = (re.split('[t]',line) for line in lines)
#形態素解析した結果を表示
for item in items:
    print(item)

実行結果

['すもも\t名詞,普通名詞,一般,,,,スモモ,李,すもも,スモモ,すもも,スモモ,和,"","","","","","",体,スモモ,スモモ,スモモ,スモモ,"0","C2","",15660352771596800,56972']
['も\t助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも\t名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['も\t助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも\t名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['の\t助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,"","","","","","",格助,ノ,ノ,ノ,ノ,"","名詞%F1","",7968444268028416,28989']
['うち\t名詞,普通名詞,副詞可能,,,,ウチ,内,うち,ウチ,うち,ウチ,和,"","","","","","",体,ウチ,ウチ,ウチ,ウチ,"0","C3","",881267193291264,3206']
['EOS']['すもも', '名詞,普通名詞,一般,,,,スモモ,李,すもも,スモモ,すもも,スモモ,和,"","","","","","",体,スモモ,スモモ,スモモ,スモモ,"0","C2","",15660352771596800,56972']
['も', '助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも', '名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['も', '助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも', '名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['の', '助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,"","","","","","",格助,ノ,ノ,ノ,ノ,"","名詞%F1","",7968444268028416,28989']
['うち', '名詞,普通名詞,副詞可能,,,,ウチ,内,うち,ウチ,うち,ウチ,和,"","","","","","",体,ウチ,ウチ,ウチ,ウチ,"0","C3","",881267193291264,3206']
['EOS']
['']

きちんと形態素解析できていることが確認できました。

dataの部分を自分の好きな文章に変えたり、txtファイルから読み込んだりすることで、様々な文章を形態素解析することができます。

今回は形態素解析ツールMeCabをインストールしてPython3で使う方法をご紹介しました。

MeCabを使いこなすことができれば、自然言語処理に非常に役に立ちます。

機械学習などと組み合わせることでよりニュースの分類やチャットボットの作成など、面白いことができます。

ぜひ、今後の学習に役立ててください。

監修してくれたメンター

メンターOS

AIプログラミングを使って開発を行う。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。