BimyouSegmenterはRubyだけで書かれた微妙なサイズの日本語分かち書きソフトウェアです。 約150Kバイトの微妙なサイズのソースコードで、青空文庫にある太宰治、宮沢賢治、夏目漱石、夢野久作作品であれば、MeCab+ipadicによるの分かち書きの結果と94%くらいは同じになります。 というTinySegmenterのパロディです。 TinySegmenterは新聞記事で学習されているのと、空白文字が単語にくっついたりして扱いが難しかったので、TinySegmenterのようなひとつのソースコードに全部つっこんだ感じの分かち書きのライブラリを自分の用意したデータで学習して好きに調節できたらいいなと思ったので作ってみました。 nekoneko_genでもこれを使っています。 TinySegmenterとは特徴ベクトルも学習アルゴリズムも学習データも違いますが、基本的な考え方はTi