大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)と大学共同利用機関法人 人間文化研究機構 国文学研究資料館(国文研)がすごいデータを無償公開しました! 11月17日に公開されたのは、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データ。その数なんと8万6176件(1,521文字種)になります。 「どういうこと?」と思ってますか?どれほどすごいことか、以下のリリース情報の画像解説を見ればわかります! データは「日本古典籍字形データセット」という名称で、字形画像データのほか、文字が古典籍のどの位置に書かれているかを示す文字座標データと、原本の画像データも含まれています。このデータは二次利用を歓迎するオープンデータとして無償提供中。 例えば、古典籍から抽出された「あ」のほんの一部。「あ」にも色々な癖がある。 例えば、古典籍から抽出された「か」のほんの一部。 収録
![古文書を自動翻訳する日も近い!?江戸時代の8万字超の「くずし字 字形データ」が無償公開へ : Japaaan](https://cdn-ak-scissors.b.st-hatena.com/image/square/0a55af6933b177018d70287fb3efe6be1905f1f7/height=288;version=1;width=512/https%3A%2F%2Fmag.japaaan.com%2Fwp-content%2Fuploads%2F2016%2F11%2Fsugoizo-1-1280x720.jpg)