icon
icon

PythonでMeCabを利用する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonでMaCabを利用する方法について現役エンジニアが解説しています。MaCabは日本語の形態素解析エンジン(ソフトウェア)です。形態素解析とは、自然言語を単語に分割する処理になります。オープンソースで無料で使用することが出来ます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

PythonでMeCabを利用する方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

PythonでMeCabを利用する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

形態素解析とは

形態素解析とは、自然言語を単語に分割する作業です。

例えば、「あの花は美しい」という文章は以下のように分割されます。

  • あの:名詞(代名詞)
  • 花:名詞
  • は:助詞
  • 美しい:形容詞

英語であればスペース区切りで簡単に分割できます。しかし日本語の場合、辞書や文法ルールを使って分割する必要があります。

言葉は日々新しいものが生まれているため、最新の言葉を知らないと誤った分割をしてしまう可能性があります。

なお、形態素解析は自然言語処理の一部です。自然言語処理は、「形態素解析→構文解析→意味解析→文脈解析」の順番で行われます。

自然言語処理について、詳しくは以下の記事を参考にしてください。

【事例付き】自然言語処理とは!仕組みやライブラリを解説

 

形態素解析エンジンMeCabとは

日本語の形態素解析エンジン(ソフトウェア)として最も有名なのがMeCabです。

MeCabは、オープンソースの形態素解析エンジンで、誰でも自由に無償で利用できます。

公式サイトからダウンロードできます。

公式サイト

MeCabを導入するには辞書が必要です。Windows版にはIPA辞書が添付されています。
その他にもいくつかの辞書があります。

おすすめは、「mecab-ipadic-NEologd」という辞書です。
Web上の情報をもとに週2回以上更新されており、新語や固有表現に強い特徴があります。

「mecab-ipadic-NEologd」の導入にはGitやLinuxの知識が必要となりますが、IPA辞書よりは格段に形態素解析の性能が上がります。
IPA辞書での動作確認が完了したら、ぜひ導入にチャレンジしてみましょう。

mecab-ipadic-NEologd

 

[PR] Pythonで挫折しない学習方法を動画で公開中

MeCabの導入方法

PythonでMeCabを利用できるようにするには、以下の手順を行います。

以下はWindows版の導入例です。

 

Pythonのインストール

事前にPythonをインストールしておきましょう。

Pythonのインストールには、関連するソフトウェアをまとめて導入できるAnacondaを利用すると便利です。

Anacondaのインストール方法については以下の記事を参考にしてください

より効率よく開発できる!AnacondaでPythonの環境を構築する方法

Anacondaでは用途に応じた複数のPythonの環境を構築できます。ぜひMeCab用の環境を用意しましょう。

Anaconda Navigatorを起動し、EnvironmentsからCreateボタンをクリックします。

Nameには任意の名前(以下では「MeCab」という名前で作成)、Pythonは「3.7」を選択してCreateボタンをクリックします。

少し待つと新しい環境が作成されます。

 

MeCabのインストール

公式サイトからバイナリパッケージをダウンロードして実行します。

辞書の文字コードは「UTF-8」を選択します。

あとは手順通り進めると、MeCabがインストールされます。

インストールが終わったら環境変数「PATH」に「MeCabをインストールしたフォルダbin」を追加します。MeCabをインストールしたフォルダはデフォルトでは「C:Program Files (x86)MeCabbin」となります。

なお、環境変数の設定方法は以下の通りです。

※環境変数の設定方法

  1. コルタナに「システムの詳細」と入力し、システムの詳細設定を起動
  2. 環境変数ボタンをクリック
  3. 表示された画面からシステム環境変数の「Path」を選択し編集ボタンをクリック
  4. 新規ボタンをクリックし「C:Program Files (x86)MeCabbin」と入力
  5. OKボタンクリックして順番に画面を閉じる

 

MeCabの動作確認

インストール終了後、MeCabの動作確認を行いましょう。

コマンドプロンプトを起動し、「mecab」と入力するとMeCabが起動します。

例として「あの花は美しい」と入力してみましょう。

以下のように形態素解析が行われると動作確認は完了です。MeCabを終了するには「Ctrl+C」を押します。

あの花は美しい
あの 連体詞,*,*,*,*,*,あの,アノ,アノ
花 名詞,一般,*,*,*,*,花,ハナ,ハナ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
美しい 形容詞,自立,*,*,形容詞・イ段,基本形,美しい,ウツクシイ,ウツクシイ
EOS

 

PythonからMeCabを使う設定を行う

PythonからMeCabを使う設定はAnaconda Promptから行います。

コルタナに「Anaconda Prompt」と入力してAnaconda Promptを起動します。

(base) C:Usersユーザー名>

Anaconda Promptを起動した直後はbase環境の状態になっています。

以下のように「activate MeCab」と入力してMeCab環境に変更しましょう。

表示が「(base)」から「(MeCab)」になったことを確認します。

 

(base) C:Usersohtak>activate MeCab
(MeCab) C:Usersohtak>

 

続けて以下のコマンドを入力します。処理が終わるまで待ちます。

 

pip install ipykernel

次に以下のコマンドを入力します。同じく処理が終わるまで待ちます。

pip install mecab-python-windows

最後に「MeCabをインストールしたフォルダbin」にある「libmecab.dll」というファイルを「AnacondaをインストールしたフォルダLibsite-packages」にコピーします。

Anacondaをインストールしたフォルダはデフォルトでは「C:Usersユーザー名Anaconda3Libsite-packages」となります。

 

利用例

一連の作業が正しく完了すると、PythonからMeCabを利用できる状態となります。

今回はPythonの実行環境であるjupyterNotebookからMeCabを使用してみましょう。
jupyterNotebookはAnaconda Navigatorから起動できます。

jupyterNotebookを起動したら、新しいPython3ノートブックを作成し、以下のコードを入力して実行します。
特にエラーメッセージが表示されなければPythonからMeCabを利用できる状態になっています。

import MeCab

続いて形態素解析を行ってみましょう

me = MeCab.Tagger ("-Ochasen")
print(me.parse ("あの花は美しい"))

実行結果は以下のようになります。

 

あの アノ あの 連体詞 
花 ハナ 花 名詞-一般 
は ハ は 助詞-係助詞 
美しい ウツクシイ 美しい 形容詞-自立 形容詞・イ段 基本形
EOS

形態素解析でエラーが出る場合は、MeCabをインストールする際、辞書を誤って「SHIFT-JIS」で作成してしまった可能性があります。

辞書の文字コードは以下のコードで確認できます。

mecab = MeCab.Tagger("-Ochasen")
info = mecab.dictionary_info()
print(info.charset)

「SHIFT-JIS」と表示された場合は、一旦MeCabをアンインストールし、フォルダも削除した上で、再度辞書を「UTF-8」に指定してインストールを行いましょう。

 

監修してくれたメンター

太田和樹(おおたかずき)

ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績:画像認識技術を活用した駐車場混雑状況把握(実証実験)、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント。

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。