sleepy_yoshiのブックマーク - はてなブックマーク

N-gram 漢字<=>かな変換 - アスペ日記
@go logo13さんの言語モデル配布ページのデータを利用して簡単な漢字->かな/かな->漢字変換ができないかなーと思って作ってみた。言語モデルの作成には SRILMを使用。配布中のデータを SRILM で扱うには多少加工しないといけないので、その変換スクリプトも作った。 GitHub リポジトリは https://github.com/hiroshi-manabe/ngram-converter 。［追記］最新のバージョンでは、4-gram のかな漢字変換用辞書をあらかじめリポジトリに入れてある。 marisa-trie モジュールさえ入れてあれば、 ./converter_sample.py --dicname-prefix=dics/bccwj4_rev_dic --order=4 --interactiveですぐにかな漢字変換が実行できる。まず、@go logo13さんの言語
sleepy_yoshi 2012/01/04
SRILM
リンク
極大部分文字列 - アスペ日記
Twitter で「極大部分文字列を求めるいいライブラリないかなー」とつぶやいていたら id:tkng さんに esaxx という岡野原さんのライブラリを教えてもらった。 esaxx というライブラリ名なのに説明が"stxx is ..."で始まったり、説明がところどころおかしい*1のはご愛敬として(最初は Suffix Tree のライブラリになるはずだったんだろうか)、確かにこれは便利そう。早速、付属の "enumSubString.cpp" というサンプルをコンパイルして使ってみる。文字列はベタに "abracadabra"。 n:12 alpha:256 node:5 0 2 4 abra 1 5 1 a 2 2 3 bra 3 2 2 ra 4 12 0あれ？これは極大部分文字列ではなくて、Suffix Tree の内部ノードだ。 "abra"、"bra"、"ra" はそれぞ
sleepy_yoshi 2011/12/02
データ構造

sa
リンク
1

はてなブックマーク

タグ

ブックマーク / takeda25.hatenablog.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / takeda25.hatenablog.jp (2)

N-gram 漢字<=>かな変換 - アスペ日記

極大部分文字列 - アスペ日記

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス