タグ

ブックマーク / digitalnagasaki.hatenablog.com (42)

  • 生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2) - digitalnagasakiのブログ

    前回記事の続きです。生成 AI が、いつの間にか新しい局面を迎えているように思います。問い合わせをするための文字数制限(正確に言えばトークンの制限)が大幅に増え、問い合わせの際に、前提知識として学術論文数十、あるいは新書10冊くらいを読み込ませてから回答させることができるようになっています。これまでは「生成 AI が持つ知識」を問い合せる形になっていましたが、これによって、「こちらが持つ知識や情報を生成 AI に考えさせる」ことができるようになりつつあります。この流れがさらに進めば、今まではできなさそうだった有用性を発揮することができるようになるかもしれない、ということで、とりあえず今試せることをちょこちょことやってみています。 で、前回記事をみた人から、J-STAGEからPDFをダウンロードする方法についてのリクエストがありましたので、ちょこっと書いてみます。 生成AIに読み込ませる信

    生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2) - digitalnagasakiのブログ
    kitone
    kitone 2024/11/02
  • 生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1) - digitalnagasakiのブログ

    先週末、カリフォルニア大学バークレー校にて、ご招待をいただいて発表をしてきました。AIと仏教研究の未来、というテーマのイベントで、世界中から関連研究者が招待されて発表をしていました。要するに、世界のデジタル仏教研究者が集まって発表をする、という会で、年に数回、こういうことが世界の各地で行われているのですが、私はもうなかでも古株というか古参というか、20年近くこの界隈にコミットしてきております。最近はAIの進展でこの世界も新しい展開を見せつつあり、また新しい人が参入してきています。 イベント自体は、生成AIを作っている話とか使ってみた話とか、そこからAIのあり方や利用方法などについて色々な議論が行われていて、とても面白いものでした。私はと言えば、今回はトリをつとめることになったので、面白いネタを、と思いまして、一つはこれまであちこちで話をしてきた(そしてこのブログでもご紹介している)AI-O

    生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1) - digitalnagasakiのブログ
    kitone
    kitone 2024/10/23
  • AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開 - digitalnagasakiのブログ

    このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクションの目玉は、18万字の篆字画像を用いたディープラーニングによる篆字画像検索です。篆書で読めない蔵書印を、1文字でも2文字でも、画像で文字検索することで文字単位での確認を支援するものです。文字が確認できたら、そこから今度は蔵書印データベース検索にジャンプすることで、蔵書印そのものの検索もできるようになっています。すでに蔵書印データベースに登録されているものであれば、そこで同じ蔵書印を見つけることができるかもしれません。この使い方に関しては解説動画もありますので、そちらもご覧になるとよいかと思います。 このツ

    AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開 - digitalnagasakiのブログ
    kitone
    kitone 2023/03/11
  • 京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ - digitalnagasakiのブログ

    京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。 基的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基的になまものの教育コンテンツを志向するものであり、それ単体で価値を

    京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ - digitalnagasakiのブログ
    kitone
    kitone 2022/08/09
  • 「楽譜のデジタル化」という課題 - digitalnagasakiのブログ

    筆者は、2000年くらいからTEI (Text Encoding Initiative) ガイドラインの勉強を開始し、デジタルテキストを用いた研究の可能性と課題について、探求と実践を繰り返してきた。デジタル化とは、単にデジタルカメラで撮影してメタデータをつけるだけでなく、全文テキストを作成し、その構造を何らかの方法で機械可読な形で共有することも含んでおり、そのようにすることで、テキストを主に用いるタイプの人文学を大いに振興することができるとともに、テキストを扱う研究の伝統的な営みを未来につなげていくことができる。 一方で、「楽譜」のことは横目に見つつ、いつも気になっていた。音として再現できるようにデジタル化するのは重要だが、それだけでなく、たとえば中世写において、テキストの内容そのものが重要であるだけでなくそこに含まれる多層的な内容もまた歴史や思想の様々な痕跡の探求に寄与するが故に構造的

    「楽譜のデジタル化」という課題 - digitalnagasakiのブログ
    kitone
    kitone 2021/08/14
    “関慎太朗「デジタル楽譜の類型化とデジタル楽譜文化を支える フォーマットについての考察」”
  • 3D×紙の繊維×漢字字形:イベント盛りだくさんな土曜日でした - digitalnagasakiのブログ

    3/13(土)は、参加したいイベントが盛りだくさんな日でした。 なんとか少しでも参加できたのは、3Dと紙の繊維と漢字字形を扱う3つのイベントでした。他にも 日語コーパスのイベントと舞台芸術アーカイブのイベントがありましたが、残念ながら、これは参加できませんでした…。 特に3次元データと紙の繊維のイベントで 共通しているように思われたのは、人文学において新たに取り込もうとしている 認識の様式をどのようにしてこれまでの文脈のなかで共有可能な言語、あるいは記号に置き換えるべきか、 という点でした。3次元データイベントの方では、ディスカッションの 時間に、考古学における計測と観察の関係についての議論等で特にそういう話が出ていたように思われました。 一方、紙の繊維のイベントの方では、 とくに、舟見一哉氏の発表でそういった 問題意識が丁寧にまとめられていたように感じました。後者のイベントは、実践女子

    3D×紙の繊維×漢字字形:イベント盛りだくさんな土曜日でした - digitalnagasakiのブログ
    kitone
    kitone 2021/03/14
    3Dのだけ見た。「史学は解釈の学問」という発言が印象強く残っている。テクノロジーによって見られるものが変われば(「超身体性」)、そこから解釈されるものも広がり、ゆたかになるのだろう。
  • 「人間文化研究情報資源共有化研究会」への期待 - digitalnagasakiのブログ

    明日、3/12(金)は、デジタル人文学/人文情報学に関する重要なイベントが2つあります。 片方は人文学の研究データの基盤の話、もう片方は研究データをどのように展開するか、というテーマを 扱うようで、この二つが重なってしまうのはなかなか残念なことなのですが、特に年度末はよくある ことなので、それはそれとしてなんとか対応するしかありません。 しかしながら、ただ参加するだけなら両方視聴すればよいのですが、今回はそのうちの片方の 国際シンポジウム「古典のジャンルと名所-デジタル文学地図の活用」 でコメンテイターをすることになったので、 そちらをきちんと拝聴するつもりであり、そうすると、もう片方はあまり耳を 傾けることも議論に参加することもできないだろうと思います。しかしながら、人文学の将来にとっては 非常に重要なプロジェクトが開催するイベントなので、話を聞くことはできないにしても、 期待するところ

    「人間文化研究情報資源共有化研究会」への期待 - digitalnagasakiのブログ
    kitone
    kitone 2021/03/13
    “今のところ、だからJPCOARスキーマに準拠して 研究データをデポジットしよう、という話は人文学研究者の間からはまだあんまり 聞こえてきません。”
  • 3D学術編集版:人文学の研究成果/研究環境としての3D構築 - digitalnagasakiのブログ

    このところ、3Dに関する取り組みがデジタル・ヒューマニティーズの世界でも見られるようになってきました。この週末には人文学と3Dをテーマとしたイベントも開催されるようで、いよいよ盛り上がりが始まる気配を感じさせます。 ではデジタル・ヒューマニティーズにおいて3Dがどういう風になっているのか、ということをちょっと見てみますと、どうも最近、Susan Schreibman先生(今はオランダのマースリヒト大学)がかなり凝っておられるようで、 充実した論文を2つ、Costas Papadopoulos氏とともに2019年にオープンアクセスで刊行しておられます。Towards 3D Scholarly Editions: The Battle of Mount Street Bridge と Textuality in 3D: three-dimensional (re)constructions a

    3D学術編集版:人文学の研究成果/研究環境としての3D構築 - digitalnagasakiのブログ
    kitone
    kitone 2021/03/10
    4D
  • CLARIN-ERIC/欧州の言語資源データインフラについて - digitalnagasakiのブログ

    欧州の言語資源データインフラとして運用されているCLARIN-ERICについて、ちょっと言及しなければならないかもしれないので 、CLARIN in a nutshell | CLARIN ERIC から、少しメモをしておきます。 CLARIN は、"Common Language Resources and Technology Infrastructure"の略。言語資源全般と技術のインフラ。 人文・社会科学分野の研究者を支援するために、シングルサインオン型のオンライン環境を通じて、 ヨーロッパ中のすべてのデジタル言語リソースやツールにアクセスできるようにするべく始まった研究インフラ。 2012年にCLARIN ERICが設立された。それは、人文科学や社会科学の研究のための言語データやツールの共有、利用、 持続可能性を支援するインフラストラクチャを構築し、維持することを使命とした。 現

    CLARIN-ERIC/欧州の言語資源データインフラについて - digitalnagasakiのブログ
    kitone
    kitone 2021/02/25
    ERICというとEducation ...が頭に浮かぶけど、“ERIC(欧州研究基盤コンソーシアム)”というのもあるんだ。
  • Mirador 3が正式リリース:IIIF対応ビューワが新しくなりました - digitalnagasakiのブログ

    IIIF対応ビューワの代表格の一つ、Miradorの新バージョンが、ついに正式リリースとなりました。バージョン2の反省を踏まえつつ、一方で、バージョン2を通じて一気に広がった開発者コミュニティのパワーを活かして、バージョン2よりも圧倒的に便利そうな雰囲気のものができあがってきました。 開発の中心になったのはスタンフォード大学図書館の面々です。開発に着手するときは、インターフェイスの専門家に担当してもらって片っ端からインタビューを行なって可能な限りニーズに対応したものを作るべく徹底的に取り組んだようです。私にまでZoomインタビューをしてきたほどですので、その調査範囲はかなりのものだったのだろうと思います。一方で、バージョン2ではなしえなかった、音声や動画、3Dなどへの対応も、レイヤー構造にすることで拡張可能な形で対応していきたい、と、中心メンバーであるStuart Snydmanさんが強調

    Mirador 3が正式リリース:IIIF対応ビューワが新しくなりました - digitalnagasakiのブログ
    kitone
    kitone 2020/11/13
  • Zoomのミーティング×10を自宅でモニタできるように - digitalnagasakiのブログ

    今回、とあるお仕事で、表題のような設定をしたので忘れないうちにメモっておきます。 状況としては、Zoomミーティング10件を同時運用するオンライン会議の運営者複数名が、各地の自宅環境において、 Zoomミーティング10件をモニタしたい、というものでした。 Zoomは、もしかしたら高級な契約をするとできるのかもしれませんが、私のできる限りでは、 パソコン1台では1度に1つのミーティングしか出入りできません。パソコン10台を並べれば 10件のミーティングの状況をモニタリングできますが、しかし、運営者が各地に 散らばっている場合、各地にそれぞれ10台パソコンを配備するのは費用的に難しいですし、 そもそも自宅接続だとスペース的にも無理だという人が多いでしょう。 そうすると、どこかでパソコン10台ならべて10ミーティングを集約してYouTubeにライブ配信してしまえば、 運営者の方々はパソコン1台し

    Zoomのミーティング×10を自宅でモニタできるように - digitalnagasakiのブログ
    kitone
    kitone 2020/07/04
    OBS Studioで10 in 1でYouTube
  • 40代後半人文系で未だにWeb開発をしている理由 - digitalnagasakiのブログ

    もう50歳がすぐそこにきていますが、未だにWebシステムの開発をしています。開発は若手や企業に任せて、自分は開発資金をとったり発注をしたりする側に まわるべきだ、ということもよく言われます。確かにそのとおりです。 ただ、現状のWeb技術のなかで「自分(達)」は何を求めているのか、それを明確にできないと依頼も発注もうまくできないのですが、 それを明確にするには、現在のWeb技術で何をどこまでできるのか、どこまでやるのにコストはどれくらいかかるのか、ということを 把握しておかないとうまくいきません。そもそも我々(この場合人文学者)は、どういうことをしたいのか、どういうものがほしいのか、 ということを、開発する人に正確に伝えるための言葉を、おそらくまだ持っていません。私自身も、そうです。そうすると、 作ってほしいものを無駄なコストをあまりかけずに作ってもらうということは非常に難しい、というか、成

    40代後半人文系で未だにWeb開発をしている理由 - digitalnagasakiのブログ
    kitone
    kitone 2020/06/19
    図書館情報学教育っていうのはこういうところに切り込んでいけないのだろうか
  • IIIFの導入方法のまとめ(コンテンツホルダー・一次公開者向け) - digitalnagasakiのブログ

    IIIFの導入の仕方がよくわからない、という声を結構あちこちで聞きます。ブログ記事として断片的に書いてきているのですが、それをいちいち探して読んでいただくのも大変ですので、改めて簡潔に記しておきます。ただし、既存のサーバ環境やサーバ・ネットワーク運用ポリシーによってできることは結構違ってくることがありますので、その点はよくご注意ください。 それから、IIIFの場合、「導入」と言っても、コンテンツホルダーや一次公開者向けの「導入」とは別に、既存の公開IIIFコンテンツを素材とする二次利用公開という観点での「導入」があります。これは今までは「利活用」と呼ばれてきたものだと思いますが、たとえば地図年表上に他所のIIIFコンテンツをマッピングできるシステムの例などをみますと、もはや「導入」と言ってしまってもいいような雰囲気があるように思っております。が、ここでは、あくまでも、一次公開者向けの導入方

    IIIFの導入方法のまとめ(コンテンツホルダー・一次公開者向け) - digitalnagasakiのブログ
    kitone
    kitone 2020/01/09
    “Pyramid Tiled Tiffに変換する”と必要なファイルサイズは何倍になるんだろう?(ストレージ容量を見積もるため)
  • デジタルアーカイブがサイズ感を得る時 - digitalnagasakiのブログ

    まずはこちらの画像を見てください。何をしているのかというと、「サイズの異なる写真で、映り込んでいる定規をディープラーニングで解析してサイズをぴったりあわせて」います。 これで、2つの百鬼夜行絵巻のサイズの違い(片方は箱ですが)を、いちいちズームで調整することなく、ボタン一つで確認できるようになりました。 youtu.be このサイズ調整機能を使うと、同じ二つ絵巻の内容を見るときも、二つの絵巻のなかのつづらのサイズはほぼ同じなのに片方の巻物は上下の余白が少ない、ということが簡単に確認できます。 youtu.be デジタルアーカイブの画像は、これまで、ともすればサイズ感を見失ってしまいがちでしたが、このようにして簡便に 元サイズ同士の比率を反映した比較ができるようになると、これまでとはかなり印象が違ってくるようになると思います。 同時に、定規をいれて撮影することは、このように、技術の進歩によっ

    デジタルアーカイブがサイズ感を得る時 - digitalnagasakiのブログ
    kitone
    kitone 2019/09/17
    色々な意味で凄まじい。しかしディープラーニングと定規っていう組み合わせもじわじわくる。
  • IIIFでフルサイズ画像ダウンロードをさせないためのお手軽設定 - digitalnagasakiのブログ

    IIIFの導入にあたって、「画像ダウンロードさせたくない」という理由で反対されるケースが未だにそこここで聞かれるという話をうかがいましたので、簡単ソリューションを考えてみました。 この件は、そもそも画面キャプチャをすれば画像入手はできてしまうというという前提を共有できるはずなので、分割画像をダウンロードして自分で組み合わせるという人は画面キャプチャと同様であると考えることにして(それでいいのかという話もありますが…)先日このブログでご紹介したような、あるいは、otani0083 さんがGUIで作ってくださったようなダウンローダーなどで簡単に大きなサイズの画像ダウンロードをできないようにする、ということを目指してみます。 今回の条件は、.htaccessを許容するapache2.4系のサーバで動いているIIP Image Serverです。.htaccessを許容しなくても直接httpd.c

    IIIFでフルサイズ画像ダウンロードをさせないためのお手軽設定 - digitalnagasakiのブログ
    kitone
    kitone 2019/03/11
    残念だなあ。“「画像ダウンロードさせたくない」という理由で反対されるケースが未だにそこここで聞かれる”
  • IIIF画像をまとめてダウンロードする簡単な方法 - digitalnagasakiのブログ

    ちょっと熱を出して寝込んでおりまして、朦朧としていたところ、以下のようなお知らせをみてふと気になりました。 Flickrを利用した画像公開終了のお知らせ こちらの中で、 なお、JPEG画像をご入り用の方は、Flickrサイトより、早めにダウンロードして頂ければ幸いです。 という注記があって、確かに、東大サイトにまとめられた後に東大からJPEG画像一括ダウンロードをされると東大サイトの負荷が大きくなって大変だなあと思ったのですが、もしかしたら、IIIF対応の画像を一括ダウンロードするのがとても簡単にできるということがあまり知られていないということもあるのかもしれないと思って、朦朧としながら、ググって関数を調べながら簡単なものを作ってみました。 https://github.com/knagasaki/IIIF_DL/blob/master/iiifdl.py まずは、Python3環境が必要

    IIIF画像をまとめてダウンロードする簡単な方法 - digitalnagasakiのブログ
    kitone
    kitone 2019/02/15
    マニフェスト単位で
  • IIIFの活用をもう少し踏み込んで:SAT2018の事例より - digitalnagasakiのブログ

    ここのところ、合間を見つけて、ちょこちょこと作っていたものが、ようやく日の目をみてもよさそうなところまできたのでご紹介です。再びIIIFの話です。 SAT大蔵経テキストデータベース2018(SAT2018) と IIIF Manifests for Buddhist Studies (IIIF-BS)をうまく組み合わせてより利便性を高めたいと思っておりまして、結果として、以下のようなものができました。たとえば、『妙法蓮華経』の例を見て頂くと、右下にダイアログが開いて、以下のように、各地から公開されている経典画像の断片が、全体のどの部分にあたるか、というのが比較的正確に表示されるようになりました。 これは大正新集大藏經の行番号をIIIF-BSで各IIIFマニフェストに割り当てておいて、その行番号をみて該当する箇所に該当するIIIFマニフェストを表示しています。横方向が経典の全体で、そのうちで

    IIIFの活用をもう少し踏み込んで:SAT2018の事例より - digitalnagasakiのブログ
    kitone
    kitone 2018/05/02
    “各地から公開されている経典画像の断片が、全体のどの部分にあたるか”
  • Miradorの新機能で国デコの絵巻画像をつなげる(Manifestの書き方編) - digitalnagasakiのブログ

    何度かご紹介してきた、Miradorに新規搭載されたLayer機能ですが、これを応用すると、複数に分割された画像をまとめて表示する、ということもできるようになります。ここでは具体例として、カルガリー大学の楊先生のリクエストにより、国立国会図書館デジタルコレクション(国デコ)の「絵師草紙」を試してみました。これは、以下のように分割撮影・公開されています。 具体的な手段を省略すると、これらの画像をIIIF Image APIに対応させて、Mirador用にIIIF Manifestファイルを作成すると、以下のようになりました。 実際にこの画面をMirador上で見てみたい方は、こちらのURLにアクセスしてから、画面の左上にある「絵巻の全画像を表示」というボタンを押してみてください。あとは、通常のMiradorと同じように、すいすいと拡大縮小できたりすると思います。 追記(20170718 1:

    Miradorの新機能で国デコの絵巻画像をつなげる(Manifestの書き方編) - digitalnagasakiのブログ
    kitone
    kitone 2018/04/11
    バラバラの巻物画像を横につなげるためのマニフェストの書き方。これやりたいなあ。
  • IIIF対応で画像を公開することの意義を改めて:各図書館等の事例より - digitalnagasakiのブログ

    前回の記事に引き続き、もう少し具体的に、各地の図書館等のIIIF画像とSAT2018との連携の状況についてのご紹介を通じて、IIIF対応で画像を公開することの意義を改めてみていきたいと思います。 1.京都大学・東京大学の例 たとえば、以下の画像群は、左からみていくと、東京大学総合図書館、SAT研究会、京都大学図書館から公開されている画像です。東京大学総合図書館とSAT研究会の画像は仏教学のプロジェクトとしてデジタル化・公開されているので、このように使われているのはある意味これまでの流れの続きと言えると思います。 一方、ここでまず注目しておきたいのは、京都大学図書館の画像です。京都大学図書館に関しては、おそらく、仏教学のプロジェクトの一環として公開したわけではなくて、自らのコレクションを学術利用全般のために公開するという文脈で公開したのだと想像しております。しかし、IIIF対応で公開したこと

    IIIF対応で画像を公開することの意義を改めて:各図書館等の事例より - digitalnagasakiのブログ
    kitone
    kitone 2018/04/09
    有り難い……。なんというか、機関リポジトリとサブジェクトリポジトリの関係も連想した。
  • IIIF, Mirador, TEI, Word2vecを活用した仏教学研究教育サイト「SAT2018」 - digitalnagasakiのブログ

    1.はじめに 2ヶ月ぶりのブログ更新です。この間、何をしていたのかというと、ひたすら時間をみつけて表題のサイト、SAT2018(SAT大蔵経テキストデータベース2018年版)を作っておりました。デジタルアーカイブの研究・教育利用のソリューションの一例とお考えいただけるとありがたく思います。今回の技術面でのキーワードはIIIF, Mirador, TEI, Word2vecで、隠れたキーワードはWebコラボレーションです。 1994年に始まったSATプロジェクトでは、比較的初期の段階から、入力が済んだ順にテキストデータを公開していましたが、2008年に最初の全文検索Webサイトを公開した時は、大正新脩大藏経約1億字の全文検索や辞書検索、論文検索機能などが中心であり、2012年/2015年の改定では仏典画像の自前公開やリンク、パラレルコーパスなどが新規追加されました。 今回、2018年版は、ネ

    IIIF, Mirador, TEI, Word2vecを活用した仏教学研究教育サイト「SAT2018」 - digitalnagasakiのブログ
    kitone
    kitone 2018/04/09
    いろいろ勉強になるのだけど、“余談ですが、以下のように、鷗外の蔵書印らしきものも見えます”に持っていかれた。