タグ

mecabとkeyboardに関するdonotthinkfeelのブックマーク (1)

  • Weblog 61℃: 日本語配列とデータ精度

    管理人 141F の、いわゆる雑記です。万事ぬるめで更新中。 Enjoy The Difference ! 月見草配列ウェブサイトの一連の文章に触発されて、小梅配列作者として思うところを述べておきます。 最適化計算によるかな配列『月見草』 小梅配列の指標となった10万字サンプル 小梅配列は周知の通り、「10万字サンプル」と称する10万字超の文章データをベースに作成した日語配列です。10万字サンプルは Excel 上に構築した配列解析ツールで、 11文書104,357字を全文解析する IME の再変換機能でカナに戻しているので、読みの精度の問題がない カナだけでなく、記号や英数字も数値評価の対象 という、他に類例のない特徴を持っています。しかしながら、10万字サンプルは日語配列を直接生成するものではなく、都度都度の全文解析による 左右別|段別|指別|キー別の打鍵頻度 シフト頻度(連続シフ

  • 1