funaki_naotoのブックマーク - はてなブックマーク

日本古典籍の挿絵カラー化 | 「つくし」プロジェクト

Sakana AIが開発した画像生成モデルEvo-Nishikieを活用して、日本古典籍の挿絵を対象としたカラー化（単色摺の墨摺絵から多色摺の錦絵への変換）に取り組みます。浮世絵はもともと江戸時代の本（古典籍）の挿絵が独立して誕生したものと言われており、挿絵と浮世絵には密接な関係があります。古典籍には単色の墨で摺られた多くの挿絵が含まれますが、これにEvo-Nishikieを適用することで、浮世絵から学習した色に基づき挿絵をカラー化できます。このように、AIを用いて昔の本を現代の絵本のようにカラーで楽しめるようにすることで、現代の人々と古典籍との距離を縮めることを目指します。さらに、日本古典籍の内容についても、生成AIチャットを使うと、現代日本語で対話をしながら読み進めていくことができます。

funaki_naoto 2024/07/22

リンク

Unicode変体仮名一覧

Unicode（ユニコード）に登録されている変体仮名（へんたいがな）286文字（U+1B001〜U+1B11E）を、現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。表の左列のリンクから、日本古典籍くずし字データセットに収録された実際の字形を確認できます。ただしすべての字母に対応する字形が収録されているわけではない点にご注意下さい。なお、変体仮名や字母の説明については、くずし字とは？をご覧下さい。くずし字の字形については、くずし字データベース検索（ひらがな（変体仮名）・カタカナ・漢字）やくずし字データセット文字種（くずし字）一覧をご利用ください。

funaki_naoto 2024/05/20

リンク

第22回CODHセミナー - デジタル時代の変体仮名：日本の文字文化の継承と新たな展開

概要変体仮名とは、現代社会では使われなくなった「ひらがな」の字形を指す言葉です。江戸時代のひらがなは現在とは異なり、一つの音にも複数の字形が存在していました。しかし明治時代以降のひらがなは一音一字への動きが進み、現代社会における変体仮名は、そば屋の看板の「読めない文字」などにわずかに残る存在となってしまいました。しかし最近、デジタル技術による変体仮名の再生に向けた動きが相次いでいます。まず2017年に変体仮名285文字がUnicodeに採用され、標準化が進みました。そして2024年にはGoogleがNoto Serif Hentaiganaを開発し、オープンな変体仮名フォントが誕生しました。さらに、くずし字認識や生成技術を活用したアプリが普及するなど、変体仮名の利用と継承にも新たな可能性が生まれています。そこで本セミナーでは、デジタル時代の変体仮名に取り組む関係者の方々にお集まりいただ

funaki_naoto 2024/05/09

リンク

NINJAL変体仮名フォント（字形拡大表示）

Unicode（ユニコード）に登録されている変体仮名（へんたいがな）286文字（U+1B001〜U+1B11E）の字形（グリフ）を拡大表示します。ひらがなと変体仮名の対応については、Unicode変体仮名一覧をご覧ください。このページでは変体仮名の表示に、国立国語研究所が作成したNINJAL変体仮名フォントのWebフォントを利用しています。変体仮名フォントとしては、Noto Serif Hentaiganaフォントも参考にしてください。

funaki_naoto 2024/04/02

リンク

Noto Serif Hentaiganaフォント（字形拡大表示）

Unicode（ユニコード）に登録されている変体仮名（へんたいがな）286文字（U+1B001〜U+1B11E）の字形（グリフ）を拡大表示します。ひらがなと変体仮名の対応については、Unicode変体仮名一覧をご覧ください。このページでは変体仮名の表示に、Googleによって開発されたNotoフォントのうち、変体仮名を対象とするSerifフォントとなる、Noto Serif HentaiganaフォントのWebフォントを利用しています。このフォントはNINJAL変体仮名フォントなどを参考に作成されたもので、7種類のウェイト（太さ）を提供します。以下ではウェイトを切り替えながら、字形を拡大表示できます。フォント選択 | ExtraLight | Light | Regular | Medium | SemiBold | Bold | Black |

funaki_naoto 2024/04/02

リンク

そあん（soan）：古活字画像を用いて現代日本語テキストをくずし字画像に変換／共有するサービス

ライブラリのアプリ化現代のニュースをくずし字で読んでみませんか？内容がわかるテキストをくずし字で読んでみると、くずし字に対する印象が変わるかもしれません。 edomi ニュースその他の事例については、活用事例を参照してください。構成古活字とくずし字そあん（soan）で用いる「古活字」とは、今から400年ほど前に使われた印刷技術に由来する言葉です。一方「くずし字」とは、くずして書かれた文字を指す言葉です。くずし字は、印刷では古活字版だけでなく整版印刷にも使われましたし、写本などの手書きの文字（草書体）も、その多くはくずし字です。一方、古活字の中には、文字を崩していないものもあります。このように、古活字は印刷技術を指す言葉、くずし字は文字の形を指す言葉、という違いがあります。そあん（soan）は、テキストをくずし字画像に変換する方法として、古活字画像を組み合わせる方法を用いるサービ

funaki_naoto 2023/08/07

光悦ではなくてちゃんと素庵だ．

リンク

「つくし」プロジェクト

くずし字資料の大規模テキスト化に基づき、全文検索技術の開発や大規模言語モデル（Large Language Model: LLM）への展開を目指します。プロトタイプ LLMの活用により、くずし字資料からどのような情報を引き出すことができるでしょうか？LLMの活用により開拓できる新たな世界を、様々なプロトタイプによる実験を通して探っていきます。絵本江戸桜『絵本江戸桜』に対して、AIを用いた自動テキスト化／翻訳実験を行いました。『絵本江戸桜』AI自動テキスト化／翻訳実験自動テキスト化／翻訳実験の結果はAIで自動生成したものであり、人間による確認や修正は行っていませんのでご注意下さい。この実験は、以下のように各種のAIツールを組み合わせることで、現在の技術で何が可能かを試してみることを目的としています。原本画像に「AIページ検出モデル」を適用し、見開き画像をページに自動分割各ページ

funaki_naoto 2023/07/03

リンク

みを（miwo）：AIくずし字認識アプリ

アプリのインストール Android: Google Play - 「みを」で検索 iOS: App Store - 「みを」で検索 2021年8月30日、Android版とiOS版のアプリを正式公開しました。アプリの利用は無料です。くずし字資料をカメラで写真撮影し、認識ボタンを押すだけで、AIがくずし字を現代文字に変換してくれます。Google PlayまたはApp Storeからインストールし、スマートフォンやタブレットなどでご利用下さい。 [もっと詳しく..] 「みを」アプリに関する情報をシェアする際には、ハッシュタグ「#miwoapp」をお使いください。 X (Twitter) - #miwoapp 主な機能ご利用にあたって「みを」のご利用にあたっては、プライバシーポリシー／利用規約や、注意事項をお読みください。「みを」のAIくずし字認識は決して完璧ではありません。くずし字認

funaki_naoto 2021/08/30

リンク

差読（Differential Reading）プラットフォーム | 武鑑全集

武鑑を対象として、複数の版本を視覚的に照合し差分を読み解くための、「差読プラットフォーム」を構築します。コンピュータビジョン技術（特徴点抽出とマッチング）を用いて2枚の画像を重ね合わせ、画像比較ツールvdiff.jsを用いて差分を強調表示します（参考：2021-06-25 「差読プラットフォーム」の試験公開）。また同一板木追跡のアルゴリズムにより、同一板木が異なる版でどのように変化したかを確認することもできます。

funaki_naoto 2021/06/25

技術

リンク

浮世絵顔データセット

浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。 ARC浮世絵顔データセット ARC浮世絵顔データセットは、機械学習を用いて浮世絵から顔領域を自動抽出し作成した、顔に関するデータセットです。立命館大学アート・リサーチセンター（ARC）が国立情報学研究所の情報学研究データリポジトリ（IDR）で公開する「立命館ARC所蔵浮世絵データベース」を対象に、共同研究グループがデータセットを作成しました。以下のGitHubリポジトリ（英語）では、顔のデータセットに加え、画像などのデータをダウンロードし分析するためのスクリプトもあわせて提供します。 GitHub: rois-codh/arc-ukiyoe-faces: ARC Ukiyo-e Faces Dataset 図：データセット中で浮世絵の画像が最も多い10人の作者 2021年6月現在、

funaki_naoto 2021/06/07

リンク

篆書字体データセット

篆書字体データセットは、印文解読に有用と思われる和漢の字書・字彙類から切り出した篆書（てんしょ）字体画像を、機械学習に利用しやすい形式で提供します。データセットをご利用の際には、ライセンス、利用ガイドライン、凡例などを必ずご確認ください。篆書字体データベース検索篆書字体データセットの一覧を見る（機械のための学習データ）文字種ごとの篆書字体一覧を見る（人間のための学習データ） 2022年8月現在、最新バージョン（v2.0）のデータセットの規模は、12点の資料画像から切り取った篆書体13,213文字種(*1)の文字画像データ181,084文字です。 (*1) 文字種には、Unicodeが付与できない親字「〓」も含むため、実質的な文字種の数を計算する場合は、これを除外する必要があります（参照：凡例）。データ概要篆書字体データセットは、複数の組織がIIIF (International

funaki_naoto 2021/03/31

リンク

武鑑全集 | ROIS-DS人文学オープンデータ共同利用センター

江戸時代の200年続いたベストセラーである『武鑑』を網羅的に解析し、江戸時代の大名家（藩）や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築するプロジェクトです。 CODHと国文学研究資料館が協働して公開する「日本古典籍データセット」には、2017年12月現在、381点の『武鑑』が含まれています。その中からまず寛政武鑑（1789）を選んで、共時的分析を進めます。寛政武鑑（1789） | 藩 | 居城 | 参勤交代 | 上屋敷 | 菩提寺 | 紋／道具 | 献上品／拝領品／時献上さらに差読(differential reading)プラットフォームを活用して、354点の武鑑を対象とした通時的分析を進めます。コンピュータビジョンとマッチング理論を組み合わせた版本対応付けアルゴリズムを考案し、画像比較ツールvdiff.jsを用いて異なる版の間の差分を可視化することで、藩に

funaki_naoto 2021/02/15

リンク

江戸買物案内

江戸買物案内は、江戸時代に出版された『江戸買物独案内』から、IIIF Curation Platformを活用して広告版面を切り抜くとともに、商人名や職種、居所（住所）、屋号紋などを抽出することで、江戸を中心とする商人に関するビジュアルな商業広告データベースとして構築したものです。さらに江戸マップβ版などの地理情報と紐づけ、江戸の商業空間を再構築します。江戸買物案内キュレーション - IIIF Curation Finderによる検索また関連プロジェクトとして、江戸観光案内もご覧下さい。江戸買物案内の活用江戸買物案内は、IIIF Curation Platformを利用して『江戸買物独案内』から収集した商人のデータを、様々な切り口で検索・再編集可能にしています。メタデータ項目を眺めていくだけでも、今では思いもよらない職業や、身近な地名などを見つけることができますし、中には凝った江

funaki_naoto 2020/12/28

リンク

歴史地名マップ

人間・文化研究機構などが公開する「歴史地名データ」にバイナリベクトルタイル技術を適用し、多数の歴史地名を同時に表示しつつズームイン／アウトする機能を実現しました。現在の地名数は298,914件です。歴史 GIS（Geographic Information Systems）において重要な役割を果たす地名の検索などにお使いください。地名 ID 表示範囲自動調整検索件数の上限は1000件です。マーカーの色は歴史地名データの属性に対応し、行政地名、建物、水部、地形、名所旧跡、その他とします。また線状の地名については、一方の端点の位置にのみマーカーを表示します。また背景地図には地理院タイルを利用しています。デフォルトでは、地名や地物などが書き込まれた「淡色地図」を表示しますが、その他に「色別標高図」「陰影起伏図」「赤色立体地図」「傾斜量図」も選択可能とし、地形と地名との関係を視

funaki_naoto 2020/12/08

リンク

日本文化とAIシンポジウム2019 〜AIがくずし字を読む時代がやってきた〜

日本では、古典籍・古文書・古記録などの過去の資料（史料）が千年以上も大切に受け継がれており、数億点規模という、世界でも稀にみる大量の資料が現存しています。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが喫緊の重要な課題となっています。そこで本シンポジウムは、AI（人工知能）を活用してくずし字を読み解く研究の、過去・現在から未来までを議論し、世界に広がるくずし字研究の最前線をご紹介します。 Kaggleコンペティション：くずし字認識基本情報

funaki_naoto 2019/09/13

リンク

くずし字データベース検索（ひらがな（変体仮名）・カタカナ・漢字）

くずし字検索文字またはUnicode（U+????）を入力：検索結果：日本古典籍くずし字データセットを文字または文字コードで検索し、ひらがな（変体仮名）・カタカナ・漢字の字形を表示します。2019年11月現在、古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字が検索対象です。それぞれの文字の出現頻度については文字種ごとのくずし字一覧、変体仮名についてはUnicode変体仮名一覧をご覧下さい。サイトの使い方検索ボックスに文字列を入力します。一文字の場合は、文字コード（Unicode）ごとの字形一覧ページに直接移動します。また複数文字の場合は、文字コードごとのページへのリンクを表示します。字形一覧ページの個々の文字をクリックすると、くずし字認識ビューア上に原本のデジタル画像を表示するとともに、文字の位置（四角形）を青線で

funaki_naoto 2019/03/22

リンク

華北交通アーカイブ：よみがえる膨大な白黒写真 - 国策鉄道会社が遺した戦時期広報用写真の研究データベース

よみがえる膨大な白黒写真 - 国策鉄道会社が遺した戦時期広報用写真の研究データベース公開目的・公開宗旨：日本語 | 簡体中文 | 繁体中文 | 華北交通アーカイブは、日中戦争期に中国北部・西北部（華北）の交通インフラを管轄していた華北交通株式会社（以下、華北交通）が所蔵していた3万8千点あまりの広報用ストックフォトをもとに構築された統合型の研究データベースです。ここに含まれる個々の写真は、当時の風物を詳細に調べるための精密（precise）な資料としての価値があります。一方、写真群全体の意味を考えるには、特定の撮影対象がなぜ選ばれたのかという意図を考えることも不可欠であり、そうしたバイアスを踏まえると、この写真群は事実の正確（accurate）な描写とはみなせない面もあります。こうした問題を考えるために、戦時期日本人／日本語話者向けに用いられた広報用写真を学術研究資源として公開しました

funaki_naoto 2019/02/13

リンク

武鑑全集とは？ | 武鑑全集

概要江戸時代の200年続いたベストセラーである「武鑑」を網羅的に解析し、江戸時代の大名家（藩）や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築するプロジェクトです。ソフトウェア開発では一般的な「差分を読む」という差読（differential reading)技術を導入することで、多数のバージョンに対する網羅的な解析を試みます。 CODHと国文学研究資料館が協働して公開する日本古典籍データセットには、2017年12月現在381点の『武鑑』が含まれています。その中から、重点的に構造化する対象として寛政武鑑（1789）を選び、共時的にデータを網羅的に構造化します。次に差読技術の適用対象として、江戸時代の大名家（藩）に関する情報を含む354点の武鑑を選び、経時的にデータを構造化します。そしてこれら2つのアプローチを組み合わせることで、網羅的な分析を拡大していく計画です。

funaki_naoto 2018/06/04

]

リンク

第6回CODHセミナー歴史ビッグデータ〜過去の記録の統合解析に向けた古文書データ化の挑戦〜 | ROIS-DS人文学オープンデータ共同利用センター

なお18:30-20:30には、別会場にて情報交換会を開催します。参加費は5000円（学生1000円）を予定しています。発表概要当日の発表資料は、原則として人文学研究データリポジトリで公開します。発表資料：doi:10.20676/00000332 歴史ビッグデータのコンセプト、特に現代との連続性について論じるとともに、「歴史的状況記録」のデータベースが果たすべき役割を考察する。データサイエンスでここが変わる。02：データを発掘し、新たな歴史を記述する。人文学オープンデータ共同利用センター発表資料：doi:10.20676/00000326 市民参加型の地震史料翻刻プロジェクトである「みんなで翻刻」と過去の地震を調べる古地震研究について紹介します。みんなで翻刻京都大学古地震研究会発表資料：doi:10.20676/00000330 近畿の古寺社の未整理文書を調査する中で目

funaki_naoto 2018/01/30

event

リンク

くずし字チャレンジ！ | ROIS-DS人文学オープンデータ共同利用センター

江戸時代の古典籍はくずし字で書かれていますが、ほとんどの現代の日本人はくずし字が読めません。では人工知能（AI）はくずし字を読めるようになるでしょうか？くずし字に関する大規模な機械学習データセット「日本古典籍くずし字データセット」を広く世界に公開し、AIによるくずし字認識（OCR）の研究開発を促進することで、1000年に及ぶ日本の文字文化を解読するというグランドチャレンジに挑みます。データセットの公開だけでなく、コンテストの開催などを通じて知識やソフトウェアの共有を進めていく計画です。ぜひご参加下さい [もっと詳しく..] 【プレスリリース】世界初のAIくずし字認識アプリ「みを（miwo）」が2022年度グッドデザイン賞を受賞～くずし字教育や古文書による地域史料調査などにも貢献～ 2022 10/26 AIくずし字認識アプリ「みを(miwo)」に関するプレスリリースを行いました。【プレ

funaki_naoto 2017/12/06

リンク

はてなブックマーク

タグ

ブックマーク / codh.rois.ac.jp (25)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス