タグ

NLPに関するhiroyuki1983のブックマーク (2)

  • 可変次数 N-gram デコードのアルゴリズム - アスペ日記

    前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字かな混じり文にすることを考える。 こういう時に使われるのが「ラティス構造」。こういうやつ↓ (この図は一回しか出てきません。ちなみにこのために Keynote 買ったようなもの) それぞれのノードで、そこに入ってくるエッジの中で一番確率が高いものとその確率を覚えていくことで、動的計画法によって最適なパスを導くことができる。 これをプログラム上でどう実現するか。 まず、共通接頭辞検索というものを使う。 これは、あるキーを渡すと、そのキーに前から一致するようなキーを持つ候補を列挙してくれるというもの。 例えば、「くるまで」をキーとして使うと、「く

    可変次数 N-gram デコードのアルゴリズム - アスペ日記
  • 修論(可変次数 CRF)の英訳 - アスペ日記

    ここのところ一ヶ月ぐらい、修士論文(可変次数 CRF)の英訳に取り組んでいた(うまくいったら国際学会とやらに出してみようかなと。ちなみに出したことはない)。ただの翻訳のつもりが、始めてみるといろいろとまずいところや足りないところが見つかったので、いろいろと修正した。その結果: 厳密になった。 ストーリーができた。 (多少)簡潔になった。 と、自分では思っている。 英訳&修正したバージョン:http://vocrf.net/docs/thesis_en.pdf 元の修士論文:http://vocrf.net/docs_ja/thesis.pdf 英訳した部分に相当するのは、日語版の 12〜24ページに相当する(図を使った例は省いた)。 とりあえず、これで先行研究の人に意見を聞いてみようかな。

    修論(可変次数 CRF)の英訳 - アスペ日記
  • 1