Mecab dictionary, with cmecab-java
utf-8で動くようなユーザ固有辞書を作成し,cmecab-javaで用いる
makedic.rbは転用
適当な日付表現等抜けたら十分
文字コードが...
Macportで入れたMecab
辞書は同じくMacportで入れたipadic-utf8を利用
#!/bin/sh wget http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv nkf -w keywordlist_furigana.csv > furigana_hatena.csv ./makedic.rb furigana_hatena.csv > keywords.csv wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz gunzip -v jawiki-latest-all-titles-in-ns0.gz ./makedic.rb jawiki-latest-all-titles-in-ns0 >> keywords.csv nkf -w keywords.csv > keyword_list.csv /opt/local/libexec/mecab/mecab-dict-index -d /opt/local/lib/mecab/dic/ipadic-utf8 -u hatena-wiki.dic -f utf-8 -t utf-8 keyword_list.csv
usage
mecab -u hatena-wiki.dic
cmecabでjavaからユーザ辞書を用いる場合は以下の通り
StandardTagger tagger = new StandardTagger("-u lib/hatena-wiki.dic");
dicへのパスが違うとOutOfMemoryで落ちる不思議
名探偵コナン 名詞,一般,*,*,*,*,名探偵コナン,*,*,hatena_keyword, は 助詞,係助詞,*,*,*,*,は,ハ,ワ