最近仕事の行き帰り、片道自転車が40分あるので、研究というかなんというかいろいろ頭の体操をしながら自転車を漕いでいるのだが、今日は @sassano さんに教えてもらって文節をどう区切るかを再読する。いや、N文節最長一致法というヒューリスティックがどういうものだったか(アルゴリズム的にはなにをしていることに相当するのか)考え始めてしまって、なんなんだろうなぁ、と思って……。(もしかしてこのヒューリスティックを統計的な手法で説明できたらおもしろそうだな、と考えたのが事の発端) 基本文献としては以下の3点。いずれも(かな漢字交じり文ではなく)かなだけからなる入力をいかに分かち書きするか、という問題に取り組んでいる。前読んだ気がするのだがすっかり忘れていた。かな漢字交じり文であれば漢字からひらがなやカタカナになったり、数字になったりするという、字種の切れ目の情報が使えるのだが、べた書きかな文は字