![江戸時代のくずし字1521文字種・8万6176件の字形データセット無償公開、ディープラーニングを用いた文字認識のサンプルプログラムも~NIIと国文研](https://cdn-ak-scissors.b.st-hatena.com/image/square/d51a7b8468ee0d9ed135d5bed3dbe9bbe05a7d4e/height=288;version=1;width=512/http%3A%2F%2Finternet.watch.impress.co.jp%2Fimg%2Fiw%2Flist%2F1030%2F599%2Fnii1.png)
国文学研究資料館が、古典籍を自由に研究・活用してもらうため、国立情報学研究所の協力のもと、同館所蔵の日本の古典籍350点の全冊画像データ(画像約6万3千コマ)とその書誌データを、同研究所の「情報学研究データリポジトリIDR」より、データセットとして、2015年11月10日から一般公開すると発表しています。 データセットの構成は以下の通りとのことです。 ・古典籍画像データ:350点におよぶ日本の古典作品について、その全冊(約63,000コマ)のJPEG形式の画像データ。 ・書誌データ:350点に関する当館作成の書誌データをテキスト形式でまとめたもの。一部の作品には当館で付与した略解題も含む。 ・本文テキストデータ:一部の作品について、その翻刻本文のテキストデータを付す。 ・タグデータ:一部の作品について、当館で付与作業を行っている1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式のデ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く