decadence

個人のメモ帳

Mecab dictionary, with cmecab-java

utf-8で動くようなユーザ固有辞書を作成し,cmecab-javaで用いる

makedic.rbは転用
適当な日付表現等抜けたら十分
文字コードが...

Macportで入れたMecab
辞書は同じくMacportで入れたipadic-utf8を利用

#!/bin/sh

wget http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv
nkf -w keywordlist_furigana.csv > furigana_hatena.csv
./makedic.rb furigana_hatena.csv > keywords.csv

wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
gunzip -v jawiki-latest-all-titles-in-ns0.gz
./makedic.rb jawiki-latest-all-titles-in-ns0 >> keywords.csv

nkf -w keywords.csv > keyword_list.csv

/opt/local/libexec/mecab/mecab-dict-index -d /opt/local/lib/mecab/dic/ipadic-utf8 -u hatena-wiki.dic -f utf-8 -t utf-8 keyword_list.csv

usage

mecab -u hatena-wiki.dic

cmecabでjavaからユーザ辞書を用いる場合は以下の通り

StandardTagger tagger = new StandardTagger("-u lib/hatena-wiki.dic");

dicへのパスが違うとOutOfMemoryで落ちる不思議

名探偵コナン	名詞,一般,*,*,*,*,名探偵コナン,*,*,hatena_keyword,
は	助詞,係助詞,*,*,*,*,は,ハ,ワ