午後打ち合わせで立川の国立国語研究所に。「統計と機械学習による日本語史研究」研究発表会に参加するためである。この研究プロジェクトは去年の年末からスタートの3年間のプロジェクトで、自分は機械学習や統計的自然言語処理方面からの研究分担者として参加している。 研究発表会は公開研究会で、プロジェクトのメンバーでない人もいらしたので、まずプロジェクトの概要を @togiso さんが説明してくださって、あと teruaki-o くんが最近取り組んでくれている明治時代の文書に対して濁点を自動付与する研究の報告をしてくれる。実際は最後人手でチェックするのだが、人手チェックしてくださった方も今回発表会に参加してくださり、いろいろフィードバックをいただけてありがたい。なにもないところから濁点を付与するより、こういうツールで前処理的につけてあると助かる、ということが直接聞けるのも、自然言語処理が日本語史研究の役