タグ

ブックマーク / digitalnagasaki.hatenablog.com (5)

  • AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開 - digitalnagasakiのブログ

    このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクションの目玉は、18万字の篆字画像を用いたディープラーニングによる篆字画像検索です。篆書で読めない蔵書印を、1文字でも2文字でも、画像で文字検索することで文字単位での確認を支援するものです。文字が確認できたら、そこから今度は蔵書印データベース検索にジャンプすることで、蔵書印そのものの検索もできるようになっています。すでに蔵書印データベースに登録されているものであれば、そこで同じ蔵書印を見つけることができるかもしれません。この使い方に関しては解説動画もありますので、そちらもご覧になるとよいかと思います。 このツ

    AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開 - digitalnagasakiのブログ
    honeybe
    honeybe 2023/03/10
  • くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ

    いま、日近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。 実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいと

    くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ
    honeybe
    honeybe 2022/10/28
  • 京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ - digitalnagasakiのブログ

    京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。 基的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基的になまものの教育コンテンツを志向するものであり、それ単体で価値を

    京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ - digitalnagasakiのブログ
    honeybe
    honeybe 2022/08/09
  • NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ

    正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで 良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。 lab.ndl.go.jp 正規表現の「.」を試してみる たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。 そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます。 「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、 そのあと分類してカウントしてくれるの

    NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ
    honeybe
    honeybe 2022/06/06
  • 「楽譜のデジタル化」という課題 - digitalnagasakiのブログ

    筆者は、2000年くらいからTEI (Text Encoding Initiative) ガイドラインの勉強を開始し、デジタルテキストを用いた研究の可能性と課題について、探求と実践を繰り返してきた。デジタル化とは、単にデジタルカメラで撮影してメタデータをつけるだけでなく、全文テキストを作成し、その構造を何らかの方法で機械可読な形で共有することも含んでおり、そのようにすることで、テキストを主に用いるタイプの人文学を大いに振興することができるとともに、テキストを扱う研究の伝統的な営みを未来につなげていくことができる。 一方で、「楽譜」のことは横目に見つつ、いつも気になっていた。音として再現できるようにデジタル化するのは重要だが、それだけでなく、たとえば中世写において、テキストの内容そのものが重要であるだけでなくそこに含まれる多層的な内容もまた歴史や思想の様々な痕跡の探求に寄与するが故に構造的

    「楽譜のデジタル化」という課題 - digitalnagasakiのブログ
    honeybe
    honeybe 2021/07/16
  • 1