decadence

個人のメモ帳

Wikipediaデータインポート

xml2sqlを使ったwikipedia dumpのデータインポート
現時点では大容量のDBデータを準備する - zabbiたんAMIたんが良い感じ
古い情報だとxml2sqlでparseする際に何かしらエラーを吐く事がある
page-articlesでも10分程で入力ファイルを生成する

tableの作成は,MediaWikiのものを利用
ダウンロード後,maintenance/tables.sqlに各種定義がある

各ファイル詳細 : Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

タイトルから本文の取得

select old_text where page, revision, text
     where page_title    = 'hoge'
         and page_id     = rev_page
         and rev_text_id = old_id