WindowsOSでのPythonにおけるmecabの利用方法を現役エンジニアが解説【初心者向け】
初心者向けにWindowsOSでのPythonにおけるmecabの利用方法について現役エンジニアが解説しています。MeCabとは京都大学とNTT共同研究を通じて開発されたオープンソースの形態素解析エンジンです。単語を品詞に分解する処理を行います。Windowsのコマンドプロンプトで実行してみましょう。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
WindowsOSでのPythonにおけるmecabの利用方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。
Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
WindowsOSでのPythonにおけるmecabの利用方法について詳しく説明していくね!
お願いします!
MeCabとは?
MeCabとは京都大学情報学研究科、日本電信電話株式会社コミュニケーション科学基礎研究所 の共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。
言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としており、C,C++,Java,Python等の言語に対応したライブラリも提供されています。
また、自分で辞書を作成して解析の設定をできることから、日本語の形態素解析ソフトの中で最もよく使われています。ちなみに名前の由来は作者の好物からきています。
形態素解析を理解しよう
形態素解析とは、自然言語処理の分野で前処理として行われる手法です。対象となる言語の文法や単語の品詞情報をもとに、文章を分解していく解析です。
例えば、「すもももももももものうち」という文章をMeCabで形態素解析すると以下の実行結果が出力されます。
すもも スモモ すもも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 の ノ の 助詞-連体化 うち ウチ うち 名詞-非自立-副詞可能
このように分解した単語のよみがなと品詞が出力されるということになります。
この技術は例えばgoogle検索を行う際に文章の中から単語を抽出して検索アルゴリズムにかけるときに使われています。また、自然言語処理を取り入れた機械学習を行う際には一度形態素解析を行って文章を単語で分解し各単語の品詞を意味を抜き出した上で学習を行うことが一般的です。
MeCabのインストール
ここからはMeCabをインストールしていく方法を解説していきます。
パッケージのダウンロード
それでは、MeCabをインストールしていきます。
今回はWindowsでインストール方法を紹介します。まずは以下のサイトからWindows用のMeCabパッケージをダウンロードします(Binary package for MS-Windowsの項目にあるexeファイルをダウンロードします)。
ダウンロードしたパッケージを実行するとMeCabのインストールします。
なお、Windows版では、コンパイル済みの辞書も合わせてインストールされます。設定は基本的にはデフォルトのままで大丈夫ですが、途中でMeCabのインストール先を聞かれたときには、そのインストール先はこのあとのパスの設定で使うので、忘れずにメモしておきましょう。
パスを通す
インストールを終えたらMeCabをコマンドラインで使えるようにするためにパスを通します。以下のコマンドを実行しMeCabの実行ファイルのパスを通しておきましょう。
SETX /M PATH "%PATH%;【MeCabのインストール先】bin"
MeCabの使い方
インストールを終えたら今度はコマンドラインでMeCabを動かしてみましょう。コマンドプロンプトかPowerShellを起動してください。コマンドラインで使う際は、以下の1行を実行するだけでMeCabを実行できます。
mecab
すると、コマンドラインから入力できる状態になるので、何か日本語を入力してみましょう。
こんにちは こんにちは 險伜捷,荳闊ャ,*,*,*,*,* EOS
結果が文字化けするかと思いますが、動作はしています。これはコマンドプロンプトやPowerShellはShift-JISであるために起こるエラーです。そこで以下の1行を実行してコマンドプロンプトやPowerShellの文字コードをUTF-8に変換します。
chcp 65001
これで文字コードがUTF-8になりました。それでは、以下の1行を実行して形態素解析をしてみましょう。
echo こんにちは | mecab
以下の実行結果が出力されたら成功です。
こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ EOS
PythonでMeCabを使ってみよう
続いてPythonでMeCabを動かしてみましょう。冒頭でも述べたようにMeCabにはPython用バインディングが提供されています。
バインディングとは、外部ライブラリを各プログラミング言語で使用できるようにするインターフェースのことです。Windows用にはmecab-python-windowsというものが提供されています。早速以下の1行を実行して、MeCabのPythonバインディングをインストールしましょう。
pip install mecab
インストールを終えたらPythonのコマンドラインツールを立ち上げてMeCabをインポートします。
import MeCab
エラーが出なければMeCabは正常にインストール出来ています。続けて以下の2行を実行してみましょう。
m = MeCab.Tagger ("-Ochasen") print(m.parse ("すもももももももものうち"))
すると先程同様に以下の実行結果が出力されます。
すもも スモモ すもも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 も モ も 助詞-係助詞 もも モモ もも 名詞-一般 の ノ の 助詞-連体化 うち ウチ うち 名詞-非自立-副詞可能
監修してくれたメンター
メンター三浦
モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。 TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。 |
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
TechAcademyでは、初心者でも、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。
また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。