サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
codh.rois.ac.jp
ライセンス 本データセットには複数のライセンスを付与しています。 詳しくはライセンスの説明をご覧下さい。 『篆書字体データセット』(国文学研究資料館が複数の機関から収集/CODH・DHII加工) doi:10.20676/00000390 また可能な場合には、データ提供元であるROIS-DS人文学オープンデータ共同利用センター(CODH)へのリンクをお願いします。 提供:ROIS-DS人文学オープンデータ共同利用センター Unicodeコードポイントリンク 日本古典籍くずし字データセット
ライブラリのアプリ化 現代のニュースをくずし字で読んでみませんか?内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュース その他の事例については、活用事例を参照してください。 構成 古活字とくずし字 そあん(soan)で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字(草書体)も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。 そあん(soan)は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ
くずし字資料の大規模テキスト化に基づき、全文検索技術の開発や大規模言語モデル(Large Language Model: LLM)への展開を目指します。 プロトタイプ LLMの活用により、くずし字資料からどのような情報を引き出すことができるでしょうか?LLMの活用により開拓できる新たな世界を、様々なプロトタイプによる実験を通して探っていきます。 絵本江戸桜 『絵本江戸桜』に対して、AIを用いた自動テキスト化/翻訳実験を行いました。 『絵本江戸桜』AI自動テキスト化/翻訳実験 自動テキスト化/翻訳実験の結果はAIで自動生成したものであり、人間による確認や修正は行っていませんのでご注意下さい。この実験は、以下のように各種のAIツールを組み合わせることで、現在の技術で何が可能かを試してみることを目的としています。 原本画像に「AIページ検出モデル」を適用し、見開き画像をページに自動分割 各ページ
篆書字体検索 文字またはUnicode(U+????)を入力: 検索結果: 篆書字体データセットを文字または文字コードで検索し、篆書(てんしょ)の字形を表示します。篆刻文字、篆字、印篆(印鑑)の調査や、篆書体などの書体デザインへの活用、現代文字から篆書への変換などにご活用ください。2022年8月現在、12点の資料画像から切り取った、13,213文字種の字形データ181,084文字が検索対象です。それぞれの文字の出現頻度については文字種一覧をご覧ください。 サイトの使い方 検索ボックスに文字列を入力します。一文字の場合は、文字コード(Unicode)ごとの字形一覧ページに直接移動します。また複数文字の場合は、文字コードごとのページへのリンクを表示します。 字形一覧ページの個々の文字をクリックすると、IIIF Curation Viewer上に原本のデジタル画像を表示するとともに、文字の位置(
edomiは江戸に関するデータポータルです。カテゴリごとに様々なデータを公開する予定です。江戸をみせたい人がデータを公開し、江戸をみたい人がデータを活用する。新しいタイプのデータポータルとしてご利用下さい。
アプリのインストール Android: Google Play - 「みを」で検索 iOS: App Store - 「みを」で検索 2021年8月30日、Android版とiOS版のアプリを正式公開しました。アプリの利用は無料です。くずし字資料をカメラで写真撮影し、認識ボタンを押すだけで、AIがくずし字を現代文字に変換してくれます。Google PlayまたはApp Storeからインストールし、スマートフォンやタブレットなどでご利用下さい。 [もっと詳しく..] 「みを」アプリに関する情報をシェアする際には、ハッシュタグ「#miwoapp」をお使いください。 X (Twitter) - #miwoapp 主な機能 ご利用にあたって 「みを」のご利用にあたっては、プライバシーポリシー/利用規約や、注意事項をお読みください。 「みを」のAIくずし字認識は決して完璧ではありません。くずし字認
浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。 ARC浮世絵顔データセット ARC浮世絵顔データセットは、機械学習を用いて浮世絵から顔領域を自動抽出し作成した、顔に関するデータセットです。立命館大学アート・リサーチセンター(ARC)が国立情報学研究所の情報学研究データリポジトリ(IDR)で公開する「立命館ARC所蔵浮世絵データベース」を対象に、共同研究グループがデータセットを作成しました。以下のGitHubリポジトリ(英語)では、顔のデータセットに加え、画像などのデータをダウンロードし分析するためのスクリプトもあわせて提供します。 GitHub: rois-codh/arc-ukiyoe-faces: ARC Ukiyo-e Faces Dataset 図:データセット中で浮世絵の画像が最も多い10人の作者 2021年6月現在、
篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書(てんしょ)字体画像を、機械学習に利用しやすい形式で提供します。データセットをご利用の際には、ライセンス、利用ガイドライン、凡例などを必ずご確認ください。 篆書字体データベース検索 篆書字体データセットの一覧を見る(機械のための学習データ) 文字種ごとの篆書字体一覧を見る(人間のための学習データ) 2022年8月現在、最新バージョン(v2.0)のデータセットの規模は、12点の資料画像から切り取った篆書体13,213文字種(*1)の文字画像データ181,084文字です。 (*1) 文字種には、Unicodeが付与できない親字「〓」も含むため、実質的な文字種の数を計算する場合は、これを除外する必要があります(参照:凡例)。 データ概要 篆書字体データセットは、複数の組織がIIIF (International
江戸時代の200年続いたベストセラーである『武鑑』を網羅的に解析し、江戸時代の大名家(藩)や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築するプロジェクトです。 CODHと国文学研究資料館が協働して公開する「日本古典籍データセット」には、2017年12月現在、381点の『武鑑』が含まれています。その中からまず寛政武鑑(1789)を選んで、共時的分析を進めます。 寛政武鑑(1789) | 藩 | 居城 | 参勤交代 | 上屋敷 | 菩提寺 | 紋/道具 | 献上品/拝領品/時献上 さらに差読(differential reading)プラットフォームを活用して、354点の武鑑を対象とした通時的分析を進めます。コンピュータビジョンとマッチング理論を組み合わせた版本対応付けアルゴリズムを考案し、画像比較ツールvdiff.jsを用いて異なる版の間の差分を可視化することで、藩に
2024年 | 2023年 | 2022年 | 2021年 | 2020年 | 2019年 | 2018年 | 2017年 | 2016年 2024年 2024-09-04 江戸マップβ版やedomiを中心とした成果がメディアで紹介されました。 位置情報技術の多様性は“カラフルなロングテール”――「人生を賭けて取り組む価値のある領域です」, INTERNET Watch, 2024-09-04 2024-08-28 メモリーグラフアプリを用いて、京都大学を中心に、インドネシア・アチェ州でワークショップを実施しました。 大規模災害の記録と記憶の継承におけるスマホアプリの活用:インドネシア・アチェ州でワークショップを実施しました, 京都大学東南アジア地域研究研究所, 2024-08-28 イベント | メモリーグラフ 2024-08-28 江戸マップ「れきちず」データセットに、2024年8月版
江戸買物案内は、江戸時代に出版された『江戸買物独案内』から、IIIF Curation Platformを活用して広告版面を切り抜くとともに、商人名や職種、居所(住所)、屋号紋などを抽出することで、江戸を中心とする商人に関するビジュアルな商業広告データベースとして構築したものです。さらに江戸マップβ版などの地理情報と紐づけ、江戸の商業空間を再構築します。 江戸買物案内キュレーション - IIIF Curation Finderによる検索 また関連プロジェクトとして、江戸観光案内もご覧下さい。 江戸買物案内の活用 江戸買物案内は、IIIF Curation Platformを利用して『江戸買物独案内』から収集した商人のデータを、様々な切り口で検索・再編集可能にしています。 メタデータ項目を眺めていくだけでも、今では思いもよらない職業や、身近な地名などを見つけることができますし、中には凝った江
人間・文化研究機構などが公開する「歴史地名データ」にバイナリベクトルタイル技術を適用し、多数の歴史地名を同時に表示しつつズームイン/アウトする機能を実現しました。現在の地名数は298,914件です。歴史GIS(Geographic Information Systems)において重要な役割を果たす地名の検索などにお使いください。 地名 ID 表示範囲自動調整 検索件数の上限は1000件です。 マーカーの色は歴史地名データの属性に対応し、 行政地名、 建物、 水部、 地形、 名所旧跡、 その他 とします。また線状の地名については、一方の端点の位置にのみマーカーを表示します。 また背景地図には地理院タイルを利用しています。デフォルトでは、地名や地物などが書き込まれた「淡色地図」を表示しますが、その他に「色別標高図」「陰影起伏図」「赤色立体地図」「傾斜量図」も選択可能とし、地形と地名との関係を視
なお、地名数がゼロの地図は他の地図の拡大版のため、今のところ作業予定はありません。 データセット 江戸マップデータセット 江戸マップβ版の地名をまとめて利用するためのデータセットです。 江戸マップデータセット 江戸マップ「れきちず」データセット 江戸マップβ版から抽出したデータを「れきちず」に統合するためのデータセットです。 江戸マップ「れきちず」データセット 参考文献 北本 朝展, 鈴木 親彦, 寺尾 承子, 堀井 美里, 堀井 洋, "地理的史料を対象とした歴史地名の構造化と統合に基づく江戸ビッグデータの構築", 人文科学とコンピュータシンポジウム じんもんこん2020論文集, pp. 171-178, 2020年12月 [ Paper ] 更新情報 2024-05-01 江戸マップ「れきちず」データセットを公開しました。 2023-10-20 既存の地名を2件修正しました。 2023
Unicode(ユニコード)に登録されている変体仮名(へんたいがな)286文字(U+1B001〜U+1B11E)を、現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。 表の左列のリンクから、日本古典籍くずし字データセットに収録された実際の字形を確認できます。ただしすべての字母に対応する字形が収録されているわけではない点にご注意下さい。なお、変体仮名や字母の説明については、くずし字とは?をご覧下さい。くずし字の字形については、くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)やくずし字データセット 文字種(くずし字)一覧をご利用ください。
顔コレデータセット(KaoKore Dataset)は、日本の絵巻物や絵本に登場する様々な顔貌画像「顔コレ(顔貌コレクション)」を、機械学習に利用しやすい形式で提供するデータセットです。データセットをご利用の際には、引用、ライセンス、利用ガイドラインなどをご確認ください。 顔コレデータセットは、複数の組織がIIIF (International Image Interoperability Framework)形式で公開する絵巻物・絵本に登場する様々な顔貌画像の所在情報とメタデータをまとめたものです。 2022年5月現在、最新バージョン(v1.3)のデータセットは、9,683件の顔貌データを提供します。データセットの内容は以下の通りです。 顔貌画像(画素:256×256)の所在情報(URL)をまとめたテキストファイル 専門家が付与した属性情報(メタデータ)をまとめたテキストファイル 機械学
ディープラーニング(AI)を用いた多文字のくずし字OCRサービスを提供します。 なお、スマホアプリについては、みを(miwo) - AIくずし字認識アプリをご利用下さい。 KuroNetくずし字認識サービス KuroNetくずし字認識サービス KuroNetくずし字認識サービスは、IIIF (International Image Interoperability Framework)に準拠した画像を対象に、RURIを利用した多文字くずし字OCR機能を提供します。無料サービスですが、ログインが必要です。具体的な利用方法につきましては、リンク先をご覧下さい。 KuroNetくずし字認識ビューア KuroNetくずし字認識ビューア KuroNetくずし字認識ビューアは、KuroNetくずし字認識サービスを利用するための入口となります。ビューアにIIIF (International Image
日本では、古典籍・古文書・古記録などの過去の資料(史料)が千年以上も大切に受け継がれており、数億点規模という、世界でも稀にみる大量の資料が現存しています。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが喫緊の重要な課題となっています。そこで本シンポジウムは、AI(人工知能)を活用してくずし字を読み解く研究の、過去・現在から未来までを議論し、世界に広がるくずし字研究の最前線をご紹介します。 Kaggleコンペティション:くずし字認識 基本情報
現代のビッグデータと同様に過去のビッグデータを分析し、過去の環境や社会の状況を復元するには、歴史の「機械可読化」に向けたデータ構造化のための情報基盤を構築する必要がある。そこで文理融合型の共同研究をベースに構造化された歴史情報を分野横断的に蓄積し、人文学・理学・工学をまたいだ歴史の再構築を目指す。 歴史ビッグデータへの期待 歴史を探るための方法として、過去の記録を歴史学者が読み解き、複数の記録を突き合せることで、確からしい解釈を積み上げていく方法がこれまで用いられてきました。この方法が、今後も歴史学の基本的な方法であり続けることは変わりませんが、そこに「機械」を導入することで歴史研究がどのように変わるのか、それを探るのが「歴史ビッグデータ」の目標です。 例えば「ディジタル・シルクロード」プロジェクトでは、「デジタル史料批判(digitally-enabled critique)」という手法
使い方 ディープラーニング(機械学習/AI)を用いてくずし字を一文字認識するサービスです。IIIF (International Image Interoperability Framework)による画像配信に対応していれば、世界のどこのサイトでもお試しできます。 まず、KogumaNetくずし字認識ビューアにIIIF Manifestを読み込みます。次に画像の一部領域を切り取ります。具体的には、ビューアの右上に表示される「■」ボタンを使って、認識したい領域を四角で囲みます。次に四角をクリックすると、その中に書いてある一文字(単文字)を認識し、その結果をポップアップウィンドウ内に表示します。 この機能は実験的に提供しており、認識誤りが生じることもあることにご注意下さい。今後さらに認識精度を向上させ、くずし字OCR(解読)サービスとしての機能を向上させる計画です。 なお本システムにはMob
くずし字検索 文字またはUnicode(U+????)を入力: 検索結果: 日本古典籍くずし字データセットを文字または文字コードで検索し、ひらがな(変体仮名)・カタカナ・漢字の字形を表示します。2019年11月現在、古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字が検索対象です。それぞれの文字の出現頻度については文字種ごとのくずし字一覧、変体仮名についてはUnicode変体仮名一覧をご覧下さい。 サイトの使い方 検索ボックスに文字列を入力します。一文字の場合は、文字コード(Unicode)ごとの字形一覧ページに直接移動します。また複数文字の場合は、文字コードごとのページへのリンクを表示します。 字形一覧ページの個々の文字をクリックすると、くずし字認識ビューア上に原本のデジタル画像を表示するとともに、文字の位置(四角形)を青線で
KMNISTとは、機械学習研究で著名なMNISTデータセット互換のくずし字データセットとして、 日本古典籍くずし字データセットから派生したデータセットです。MNISTデータセットに対応した機械学習ソフトウェアであれば、設定を変更するだけで気軽にKMNISTを試すことができます。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。 KMNISTデータセットは、ROIS-DS人文学オープンデータ共同利用センター(CODH)が作成したものであり、国文学研究資料館が作成した日本古典籍くずし字データセットを元にしています。ご利用の際にはライセンスをご確認下さい。 GitHub: Repository for Kuzushiji-MNIST, Kuzushiji-49, and Kuzushiji-Kanji Th
IIIF Curation Platform (ICP)は、 キュレーションというコンセプトを中心とした、 利用者主導型の次世代IIIFプラットフォームです。 IIIF Curation Viewerとは? IIIF Curation Viewerは、IIIFに準拠した画像ビューアです。ページ移動やズームといった一般的な機能に加えて、独自の特徴としてキュレーション機能を備え、世界の多くのIIIF対応サイトから部分画像を収集することが可能です。ソフトウェアは最低限の機能に絞ったシンプルなデザインを採用していますが、プラグインの枠組みを使うことで目的に応じた拡張も可能となっています。 IIIFマニフェストURLを入力して、IIIF Curation Viewerで見てみましょう! なおIIIF Curation Viewerは、2024年8月27日に、IIIF Presentation API
概要 江戸時代の200年続いたベストセラーである「武鑑」を網羅的に解析し、江戸時代の大名家(藩)や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築するプロジェクトです。ソフトウェア開発では一般的な「差分を読む」という差読(differential reading)技術を導入することで、多数のバージョンに対する網羅的な解析を試みます。 CODHと国文学研究資料館が協働して公開する日本古典籍データセットには、2017年12月現在381点の『武鑑』が含まれています。その中から、重点的に構造化する対象として寛政武鑑(1789)を選び、共時的にデータを網羅的に構造化します。 次に差読技術の適用対象として、江戸時代の大名家(藩)に関する情報を含む354点の武鑑を選び、経時的にデータを構造化します。そしてこれら2つのアプローチを組み合わせることで、網羅的な分析を拡大していく計画です。
顔貌コレクション(顔コレ)は、美術作品に出現する顔の部分を切り取って集め、それを美術史研究(特に様式研究)に活用するプロジェクトです。描き方から作者や工房の特徴を読み取りやすいため、顔貌表現は様式研究の重要な素材の一つです。日本の絵巻物を中心として古今東西の美術作品から顔貌を切り取って収集し、顔の描き方を比較検討することで、例えば絵師や工房の異同を推定したり、影響関係を見出したりすることが可能になります。現在は108作品から9675件を収集しています。 顔貌コレクション(顔コレ) - IIIF Curation Finderによる検索 顔コレデータセット - 機械学習のためのデータセット AI顔貌検出サービス - 機械学習による顔貌検出サービス 顔貌コレクションの活用 顔貌コレクションは、美術作品に登場する顔の表現をIIIF Curation Platformを利用して収集し、様々な切り口
なお18:30-20:30には、別会場にて情報交換会を開催します。参加費は5000円(学生1000円)を予定しています。 発表概要 当日の発表資料は、原則として人文学研究データリポジトリで公開します。 発表資料:doi:10.20676/00000332 歴史ビッグデータのコンセプト、特に現代との連続性について論じるとともに、「歴史的状況記録」のデータベースが果たすべき役割を考察する。 データサイエンスでここが変わる。02:データを発掘し、新たな歴史を記述する。 人文学オープンデータ共同利用センター 発表資料:doi:10.20676/00000326 市民参加型の地震史料翻刻プロジェクトである「みんなで翻刻」と過去の地震を調べる古地震研究について紹介します。 みんなで翻刻 京都大学古地震研究会 発表資料:doi:10.20676/00000330 近畿の古寺社の未整理文書を調査する中で目
CODH 1867年11月9日、江戸時代の終わりを象徴する「大政奉還」から、歴史は大きく動きました。あれから150年が経過した2017年。江戸時代260年に関するオープンデータが公開されつつあるいま、人工知能(AI)の最新技術なども活用しながら、かつての江戸の情報空間を現代によみがえらせるプロジェクトを始めます。 日本古典籍データセット 歴史的典籍NW事業においてデジタル化された古典籍のうち、主に国文研所蔵本を対象に、画像データと書誌データをセットで公開しています。さらに一部の古典籍には作品紹介や翻刻テキストデータ、タグ情報なども付与しています。
日本古典籍データセットでは、有名な古典文学、挿絵の多い本、また旅行ガイドのような実用的な書物など、様々な作品が提供されています。これらを横断的に閲覧し活用することで、研究としても娯楽としても興味深い発見をすることができます。 日本古典籍キュレーションは、その一例としてIIIF Curation Viewerの機能を用いてテーマごとに日本古典籍データセットから画像を切り出し、解説文とともに紹介します。 その他のキュレーション IIIFグローバルキュレーションは、世界の多くのサイトを対象としたサイト横断的キュレーションを制作します。特におすすめIIIFサイトはキュレーションに便利です。 ライセンス 『日本古典籍キュレーション』(情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター編集) 『日本古典籍データセット』(国文学研究資料館所蔵)を利用 はクリエ
なお17:30-19:30には、別会場にて情報交換会を開催します。参加費は5000円(学生1000円)です。申込は締め切りました。当日参加は受け付けておりませんので、ご了承下さい。 発表概要 当日の発表資料は、各タイトルの下のリンク先にアーカイブしていますが、DOIがうまくレゾルブできない場合には人文学研究データリポジトリ 第4回CODHセミナーをご覧下さい。 発表資料:http://id.nii.ac.jp/1485/00000316/ IIIFは、デジタル画像を簡便に発信して、ウェブスケールで相互利用可能にする運動として、すでに100以上の組織が参加している。その意義と最新動向について紹介する。 IIIF Frequently Asked Questions (FAQs) - What are the benefits of IIIF? 発表資料:doi:10.20676/000003
次のページ
このページを最初にブックマークしてみませんか?
『ROIS-DS人文学オープンデータ共同利用センター(CODH)』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く