形態素解析エンジンMeCabをWindows + Pythonで使えるようにする

MeCabとは

MeCabは有名な形態素解析エンジンです。MeCabを使えば簡単に形態素解析を実行することが可能です。

MeCabWindowsでインストールする

①公式サイトからWindows版をインストール
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

mecab-0.996.exeを起動し、セットアップをします。
言語設定を求められる場合は、「UTF-8」を指定します。

②Pathを通す
PATH環境変数に実行ファイル(mecab.exe)のあるディレクトリを追加しましょう。
例:C:\Program Files (x86)\MeCab\bin

Pythonで扱うためのパッケージをインストール
以下の2つを実行します。

pip install ipykernel
pip install mecab-python-windows

④libmecab.dllをpython.exeのあるディレクトリにコピーする
libmecab.dllmecab.exeディレクトリに格納されています。
python.exeのあるディレクトリへlibmecab.dllをコピーしましょう。
※Anacondaを導入している場合は、python.exeが複数ある場合があります。実行環境がどこのpython.exeを使用しているか確認しましょう。

Pythonで実行できるか試してみる

実際にPythonで実行できるか試してみます。

import MeCab
tagger = MeCab.Tagger('-Ochasen')
result = tagger.parse('日曜午前はカブの時間。')
print(result)

詳しい使い方の説明は今回は割愛しますが、形態素解析が4行で書けます。

<実行結果>

日曜    ニチヨウ        日曜    名詞-副詞可能
午前    ゴゼン  午前    名詞-副詞可能
は      ハ      は      助詞-係助詞
カブ    カブ    カブ    名詞-一般
の      ノ      の      助詞-連体化
時間    ジカン  時間    名詞-副詞可能
。      。      。      記号-句点
EOS

しっかりPythonで実行できていますね。

まとめ

今回は形態素解析エンジン MeCabをインストールしてPythonで利用できるまでをまとめました。品詞ごとに分解し、かつ品詞区別をしてくれるMeCabは活用できる場面が多々ありそう。またMeCabを利用した実装についてまとめてみたいと思います。