MeCab

半角スペースを含むアルファベットで構成された複合名詞を抽出する

形態素解析した結果から、複合名詞を抽出するときに出現した問題 複合名詞(格フレームではない)を抽出するときは、基本的に名詞の連続を抽出する。 しかし、形態素解析の結果から、名詞の連続を単に追記して抽出した場合 以下のようなスペース区切りの文節…

exec()を使わずに、Javaからmecabを呼べるのか

※前提 mecabを呼ぶ専用のライブラリは使わない。 JavaではなくGroovyを使う!! 環境はVirtualBoxで仮想化したUbuntu10.04、IDEはNetbeans6.8を使った。 (Netbeansだと、数クリックでGroovyを有効にできるのでw) Groovyのコード import java.util.ArrayLis…

MeCabの形態素解析速度を出力する

MeCabの形態素解析する速度を計測して,研究に耐えうるものか計ることになった. 以下に計測方法とその結果を示す. [user name]@ubuntu-vm:~$ time mecab mecab-test/100k-ntt.txt > /dev/null real 0m1.135s user 0m0.016s sys 0m0.020s time mecabという…