[B! Programming][C++][nlp] yokochieのブックマーク

yokochie id:yokochie

ProgrammingとC++とnlpに関するyokochieのブックマーク (2)

marisa-trieを使ってみた - nokunoの日記
id:s-yata さんの新作trieライブラリが公開されていたので使ってみました。環境はMac OS Xです。やた＠はてな日記 marisa-trie - Project Hosting on Google Code インストール普通にGoogle Codeからダウンロードしてインストールします。 $ wget http://marisa-trie.googlecode.com/files/marisa-0.0.1.tar.gz $ tar xfz marisa-0.0.1.tar.gz $ cd marisa-0.0.1/ $ ./configure $ make $ sudo make install 動作確認Wikipedia N-gram（nokunoの日記）よりbigramを格納し、marisa-predictによって前方一致検索を行いました。 $ cat bigram.txt
yokochie 2011/01/11
nlp

programming

c++
リンク
Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N
yokochie 2010/05/25
programming

c++

nlp
リンク
1