タグ

ブックマーク / shogo82148.github.io (1)

  • TinySegmenterの学習ツールを作ってみた

    TinySegmenterは工藤さん作のJavaScriptだけで書かれたコンパクトな分かち書きソフトウェアです. わずか20kバイト程度のサイズしかなく,お手軽に使える分かち書きソフトウェアですが, 当たり前のことながら学習データに使った新聞記事以外の文章の精度はイマイチ. 改善しようにも学習用のプログラムが公開されていないのでモデルの修正が大変です. ないなら作ってしまいましょう! ダウンロード ソースはgithubで公開しています.cloneするなりzipファイルを落としてくるなりしてください. TinySegmenterMaker 学習方法 スペースで分かち書きしたコーパスをあらかじめ準備しておきます. コーパスから分かち書きの情報と素性を取り出します.

  • 1