タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとAlgorithmとNLPに関するxefのブックマーク (2)

  • m2scorerを(100倍位)高速化してみた - 英語帝国を打倒しよう

    まとめ 単語数をVとして、V^3からV^2ぐらいへ高速化した。 バグを見つけるなどして、定数倍の高速化にも努めた。 m2scorer_python3_fastで公開している。 m2scorerとは Grammalyのような、文法的に誤った文を文法的に正しい文に直すタスクがあり、文法誤り訂正(GEC)と呼ばれています。 M2(MaxMatch)とは文法誤り訂正の評価手法の一つです。提案されたのは少し古いのですが、CoNLL-2014と呼ばれるコンペの評価指標として採用されたこともあって、過去の実験と比較する時などには必ず用いられています。 M2はm2scorerというレポジトリでgithubに公開されています。 https://github.com/nusnlp/m2scorer 事の発端 国際学会への投稿を目指していたのですが、それにあたって大規模な実験を行う必要がありました。しかし、その

    m2scorerを(100倍位)高速化してみた - 英語帝国を打倒しよう
  • 接続辞書と日本語入力 - 増井俊之

    増井俊之.icon はMacでもAndroidでもChromeOSでも自前の日本語入力システム(IME)を使ってるのだが、「接続辞書」を使う単純なアルゴリズムを利用している。 世の中で広く使われているモダンな日本語入力システムは高度な自然言語処理によってかな漢字変換を行なっているが、実は高度な自然言語処理を利用しなくても効率的に日本語入力することは可能である。たとえばSKKという日本語入力システムは単純な辞書とアルゴリズムしか使っていないにもかかわらず高速な日本語入力が可能だったりする。(SKKはもともとEmacs上での日本語入力用に開発されたもので、増井俊之.icon も結構使っていたのだが、キーボードの利用が前提でありモバイル機器では使いにくいとか日語でしか使えないという制約がある) 接続辞書というのは「単語の次にどのような単語が続くか」を記述した辞書である。単語ごとに、読み/カテゴ

    接続辞書と日本語入力 - 増井俊之
  • 1