uim のメーリングリストで知ったのだが、最近 Anthy のパッチのメンテナンスを続けてらっしゃる G-HAL さんがAnthy の変換アルゴリズムを N 文節最長一致にするパッチを公開したそうだ。 結論のところだけ引用してしまうが、 プログラムの設定値や depgraph やシステム辞書の頻度情報などの、 手作業でのパラメータ調整で変換結果を最高にしようなんて無理、無謀。 オリジナルの Anthy にて、 「手作業で設定するヒューリスティックのパラメータ調整」 と言う方向性を捨てて、 「コーパスからパラメータを自動生成する」 と言う方向性を選んだのは、 至極真っ当。 ただ、不適切だったのは、 公募したコーパスが十分な品質と量になる事を前提とした点と、 個人の文体に合わせた調整機構(学習機能?)が無いと言う運用上の点。 とのことで、全くその通りだと思う。 新聞数年〜十数年分のコーパスはさ