形態素解析エンジンMeCabをWindows + Pythonで使えるようにする
MeCabとは
MeCabは有名な形態素解析エンジンです。MeCabを使えば簡単に形態素解析を実行することが可能です。
MeCabをWindowsでインストールする
①公式サイトからWindows版をインストール
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
mecab-0.996.exe
を起動し、セットアップをします。
言語設定を求められる場合は、「UTF-8」を指定します。
②Pathを通す
PATH環境変数に実行ファイル(mecab.exe)のあるディレクトリを追加しましょう。
例:C:\Program Files (x86)\MeCab\bin
③Pythonで扱うためのパッケージをインストール
以下の2つを実行します。
pip install ipykernel
pip install mecab-python-windows
④libmecab.dllをpython.exeのあるディレクトリにコピーする
libmecab.dll
はmecab.exe
のディレクトリに格納されています。
python.exe
のあるディレクトリへlibmecab.dll
をコピーしましょう。
※Anacondaを導入している場合は、python.exe
が複数ある場合があります。実行環境がどこのpython.exe
を使用しているか確認しましょう。
Pythonで実行できるか試してみる
実際にPythonで実行できるか試してみます。
import MeCab tagger = MeCab.Tagger('-Ochasen') result = tagger.parse('日曜午前はカブの時間。') print(result)
詳しい使い方の説明は今回は割愛しますが、形態素解析が4行で書けます。
<実行結果>
日曜 ニチヨウ 日曜 名詞-副詞可能 午前 ゴゼン 午前 名詞-副詞可能 は ハ は 助詞-係助詞 カブ カブ カブ 名詞-一般 の ノ の 助詞-連体化 時間 ジカン 時間 名詞-副詞可能 。 。 。 記号-句点 EOS
しっかりPythonで実行できていますね。
まとめ
今回は形態素解析エンジン MeCabをインストールしてPythonで利用できるまでをまとめました。品詞ごとに分解し、かつ品詞区別をしてくれるMeCabは活用できる場面が多々ありそう。またMeCabを利用した実装についてまとめてみたいと思います。