タグ

ブックマーク / takeda25.hatenablog.jp (2)

  • N-gram 漢字<=>かな変換 - アスペ日記

    @gologo13さんの言語モデル配布ページのデータを利用して簡単な漢字->かな/かな->漢字変換ができないかなーと思って作ってみた。 言語モデルの作成には SRILMを使用。 配布中のデータを SRILM で扱うには多少加工しないといけないので、その変換スクリプトも作った。 GitHub リポジトリは https://github.com/hiroshi-manabe/ngram-converter 。 [追記]最新のバージョンでは、4-gram のかな漢字変換用辞書をあらかじめリポジトリに入れてある。 marisa-trie モジュールさえ入れてあれば、 ./converter_sample.py --dicname-prefix=dics/bccwj4_rev_dic --order=4 --interactiveですぐにかな漢字変換が実行できる。 まず、@gologo13さんの言語

    N-gram 漢字<=>かな変換 - アスペ日記
  • 極大部分文字列 - アスペ日記

    Twitter で「極大部分文字列を求めるいいライブラリないかなー」とつぶやいていたら id:tkng さんに esaxx という岡野原さんのライブラリを教えてもらった。 esaxx というライブラリ名なのに説明が"stxx is ..."で始まったり、説明がところどころおかしい*1のはご愛敬として(最初は Suffix Tree のライブラリになるはずだったんだろうか)、確かにこれは便利そう。 早速、付属の "enumSubString.cpp" というサンプルをコンパイルして使ってみる。文字列はベタに "abracadabra"。 n:12 alpha:256 node:5 0 2 4 abra 1 5 1 a 2 2 3 bra 3 2 2 ra 4 12 0あれ? これは極大部分文字列ではなくて、Suffix Tree の内部ノードだ。 "abra"、"bra"、"ra" はそれぞ

    極大部分文字列 - アスペ日記
  • 1