SudachiDictをご存じでしょうか。 Sudachiという日本語形態素解析エンジンの辞書で、テキスト形式でも公開されています。 素晴らしいですね。 ただ、一部の用途には使いにくいこともあります。 例えば、「鬼滅の刃」は次のようなエントリーになっています。 鬼滅の刃,4785,4785,15000,鬼滅の刃,名詞,固有名詞,一般,*,*,*,キメツノヤイバ,鬼滅の刃,*,A,*,*,*,* これを使ってルビをつけようとすると、こんな感じになってしまいます。 鬼滅の刃《きめつのやいば》 これはよくないですね。 しかし、SudachiDictには、どの漢字の塊にどの読みが対応するかという情報がないのでどうしようもありません。 そこで、SudachiDictを変換するワンライナーを書きました。 cat {small,core,notcore}_lex.csv > sudachi.csv pe

