decadence

個人のメモ帳

Mallet Data Import in Japanese

日本語の文書をmalletのデータ形式にimportする

特に,Mecab(cmecab)を用いて名詞のみを対象としたデータのインポートを行った
英語ならば,公式にあるものをそのまま用いれば良い

コマンドラインからでは名詞抽出を行うには別途抽出を行ったファイルを作成しておく必要があるが,
これを用いればそのままの文章ファイルから名詞の抽出も同時に行ってくれる

mallet形式の日本語名詞データ生成 with Mecab(wiki+hatena辞書)
一応Scalaだけど中身ほぼJava...
インデントがずれてるのはemacsで書いた後にコピペする際に...

cmecabにhatena keywordを入れた辞書を使う事で"小柳ルミ子"や"ジャニーズ・エンタテイメント"といった名詞を一語として取得している
これについては以下を参考に
Mecab dictionary, with cmecab-java - krrrr.com

次はトピックモデルの構築をJava
Topic Modeling Developer's Guide