ブックマーク / digitalnagasaki.hatenablog.com (31)

  • 生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2) - digitalnagasakiのブログ

    前回記事の続きです。生成 AI が、いつの間にか新しい局面を迎えているように思います。問い合わせをするための文字数制限(正確に言えばトークンの制限)が大幅に増え、問い合わせの際に、前提知識として学術論文数十、あるいは新書10冊くらいを読み込ませてから回答させることができるようになっています。これまでは「生成 AI が持つ知識」を問い合せる形になっていましたが、これによって、「こちらが持つ知識や情報を生成 AI に考えさせる」ことができるようになりつつあります。この流れがさらに進めば、今まではできなさそうだった有用性を発揮することができるようになるかもしれない、ということで、とりあえず今試せることをちょこちょことやってみています。 で、前回記事をみた人から、J-STAGEからPDFをダウンロードする方法についてのリクエストがありましたので、ちょこっと書いてみます。 生成AIに読み込ませる信

    生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2) - digitalnagasakiのブログ
    zu2
    zu2 2024/11/03
  • 生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1) - digitalnagasakiのブログ

    先週末、カリフォルニア大学バークレー校にて、ご招待をいただいて発表をしてきました。AIと仏教研究の未来、というテーマのイベントで、世界中から関連研究者が招待されて発表をしていました。要するに、世界のデジタル仏教研究者が集まって発表をする、という会で、年に数回、こういうことが世界の各地で行われているのですが、私はもうなかでも古株というか古参というか、20年近くこの界隈にコミットしてきております。最近はAIの進展でこの世界も新しい展開を見せつつあり、また新しい人が参入してきています。 イベント自体は、生成AIを作っている話とか使ってみた話とか、そこからAIのあり方や利用方法などについて色々な議論が行われていて、とても面白いものでした。私はと言えば、今回はトリをつとめることになったので、面白いネタを、と思いまして、一つはこれまであちこちで話をしてきた(そしてこのブログでもご紹介している)AI-O

    生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1) - digitalnagasakiのブログ
    zu2
    zu2 2024/10/24
  • ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳 - digitalnagasakiのブログ

    3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておられ、2019年、その成果として「Distant Horizons: Digital Evidence and Literary Change」をシカゴ大学出版局から刊行されました。このの序文は、大変興味深いものであり、膨大なデジタルテキストをにどのように取り組めばよいのか、そして、それによって、人がただ読むだけではうまく見えてこなかった文学の様々な側面、特に文学史やジャンルがどのようにして見えるようになるのか、ということについて、ラディカルな議論と一つの解決の方向性を提示しておられます。の全体としてはその具体的な方法も示されています

    ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳 - digitalnagasakiのブログ
    zu2
    zu2 2024/03/09
  • ABBY FineReader 15で複数PDFにまとめてOCRをかけるには - digitalnagasakiのブログ

    ABBY FineReader 15で複数PDFにまとめてOCRをかける方法です。「一つずつファイルを開いてOCRをかける」手間を省くことができます。超快適です。 なお、ABBY FineReader は最新版ではありません。最新版を持っていないので、最新版でこれができるかどうかはわかりませんのでご注意ください。(最新版でできた、という人がいたら教えてください。 まず、ABBY FIneReader 15 OCRエディタを開いてください。それから、メニューバーから「ツール」⇒「自動化ツール」を選んでください。 そうすると、自動化ツールの「タスク設定」ダイアログが表示されます。 ここで「新規」を選択すると、新しい自動化処理の作成ができるようになります。 今回やりたいことは、OCRに関わる一連の操作です。そこで、それらを一通り設定していくのですが、特に重要なのは、 「OCR対象のPDFが入った

    ABBY FineReader 15で複数PDFにまとめてOCRをかけるには - digitalnagasakiのブログ
    zu2
    zu2 2024/01/03
  • 『般若心経』の敦煌写本@フランス国立図書館を大正新脩大蔵経と比較できるツール - digitalnagasakiのブログ

    このところ、少しずつ時間をみつけて改良を続けている、「大正新脩大蔵経と他の木版・写を簡単に比較できる仕組み」ですが、表示を高速化できるように色々工夫を行いまして、割とお待たせせずに表示できるようになりつつあります。 それから、「木版大蔵経の版まるごと」の比較だけでなく、個々の経典の写や版でも対比できるように、全体的に枠組みを拡張しました。まずはお試し版ということで、短いけど有名なテキスト『般若波羅蜜多心経』で、フランス国立図書館に所蔵されている敦煌写ペリオコレクションから2つの写を組込んでみました。以下の画像で、左上の「大蔵経一覧」のところを選ぶとそれぞれの版と大正新脩大蔵経が表示できるようになっています。 https://sate.dhii.jp/VIEW/ZJK/TID/T0251_.08.0848c04 これらのテキストでは、黄色いマーカーがついていますが、そのうちで、「@

    『般若心経』の敦煌写本@フランス国立図書館を大正新脩大蔵経と比較できるツール - digitalnagasakiのブログ
    zu2
    zu2 2024/01/03
  • NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に: - digitalnagasakiのブログ

    表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。 やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行がそれぞれ拡大表示される」機能が追加された、というものです。(最近はシステムを他の人に作っていただくこともありますが、今回は表示システムの部分は全部自分で作っています) SAT大蔵経DBはこちらです。 そして、この位置合わせを行うにあたって、NDL古典籍OCRで生成したテキストデータが非常に役立った、ということなのです。 例として、以下のURLで表示可能な経典を用いてみます。 21dzk.l.u-tokyo.ac.jp 先に具体的な使い方をご説明しますと、今回、下記のところに新たにチェックボックスが2つ追加されました。 たとえば、上記のように「宮内

    NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に: - digitalnagasakiのブログ
    zu2
    zu2 2023/10/05
  • デジタルアーカイブのためのプログラミングレッスン:第7回を追加しました。 - digitalnagasakiのブログ

    デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館NDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここまでの繰り返しになって恐縮ですが… バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。 また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。 「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。 なお、以下のリンクはGoogle Cola

    デジタルアーカイブのためのプログラミングレッスン:第7回を追加しました。 - digitalnagasakiのブログ
    zu2
    zu2 2023/05/06
  • AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開 - digitalnagasakiのブログ

    このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクションの目玉は、18万字の篆字画像を用いたディープラーニングによる篆字画像検索です。篆書で読めない蔵書印を、1文字でも2文字でも、画像で文字検索することで文字単位での確認を支援するものです。文字が確認できたら、そこから今度は蔵書印データベース検索にジャンプすることで、蔵書印そのものの検索もできるようになっています。すでに蔵書印データベースに登録されているものであれば、そこで同じ蔵書印を見つけることができるかもしれません。この使い方に関しては解説動画もありますので、そちらもご覧になるとよいかと思います。 このツ

    AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開 - digitalnagasakiのブログ
    zu2
    zu2 2023/03/19
  • デジタルアーカイブのためのプログラミングレッスン第一回~第四回 - digitalnagasakiのブログ

    デジタルアーカイブのためのプログラミングレッスン、というのを少し作成してみています。今のところ、第一回~第四回ができております。 デジタルアーカイブに興味を持ったり、関わったりしているものの、内容面だけでなく技術面からも格的に取り組もうと思って普通に一からプログラミングを勉強しようとすると、何に役立つのかのイメージを持ちにくくてなかなか気が進まない、という経験をお持ちの方は少なくないと思います。 そんな弱まりがちな気持ちをブーストするために、あるいは、かつてやめてしまったことに再挑戦するために、ちょっと直接的に役立ちそうなプログラミングのレッスンと課題を、まさに実践経験の場からご用意いたしました。第四回までいくと、任意のNDLコンテンツをMiradorやIIIF Curation viewerで直接開くリンクを作成できるようになります。 これですべてできるようになるというわけではありませ

    デジタルアーカイブのためのプログラミングレッスン第一回~第四回 - digitalnagasakiのブログ
    zu2
    zu2 2023/03/19
  • シェイクスピア戯曲の文法的特徴を簡単に調べてみる - digitalnagasakiのブログ

    日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポスライドとGoogle Colabを準備してちゃかちゃかお話をしました。このようなコンセプトにしたのは、コーパス研究者でタグを邪魔だという人を結構拝見したことがあったということと、ごく最近にも以下のようなお話もありましたので、使い方以前に、「タグがついていると何がうれしいのか」をもう少し明白に共有した方がよいのではないか、ということがありました。 「タグ付きのコーパスデータは、正規表現を書けない言語系・教育系の人にとって使いにくいのでは?」とカキーン会議で話題になり、プレーンテキストのバージョンも作ることに。 当該コーパスのタグ仕様は、既存のコーパス

    シェイクスピア戯曲の文法的特徴を簡単に調べてみる - digitalnagasakiのブログ
    zu2
    zu2 2022/10/28
  • くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ

    いま、日近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。 実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいと

    くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ
    zu2
    zu2 2022/10/28
  • 京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ - digitalnagasakiのブログ

    京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。 基的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基的になまものの教育コンテンツを志向するものであり、それ単体で価値を

    京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ - digitalnagasakiのブログ
    zu2
    zu2 2022/08/09
  • NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ

    正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで 良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。 lab.ndl.go.jp 正規表現の「.」を試してみる たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。 そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます。 「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、 そのあと分類してカウントしてくれるの

    NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ
    zu2
    zu2 2022/06/06
  • 【頭の整理】日本での「テキストデータベース」作りの最初のあたり - digitalnagasakiのブログ

    標題の件につき、少し頭を整理するためにメモを残しておく。多分これが来的なブログの使い方なのではないかと思うので、情報収集したい人にはあまり有益ではないかもしれず申し訳ないがご容赦いただきたい。 テキストデータベースを作る、という取組みは、テキスト研究をしているとどうしても関心を持たざるを得ない。もちろん、 テキストとして書かれたものだけを対象としたところで人間文化の何が明らかにできるのだろうか、という立場もあるとは 思うのだが、テキストほどに高度に集約的で持続性も高い情報伝達手段はなかなかないので、一定の有用性は認めてよいのでは ないかと思っている。 一方で、テキストは、Unicodeなどの文字コードに準拠して並べていけば割と高度な処理が比較的容易に可能となるので、 テキストデータベースをどういう風に作っていくかということは結構重要なのである。 もちろん、Unicodeなどが出てくる以前

    【頭の整理】日本での「テキストデータベース」作りの最初のあたり - digitalnagasakiのブログ
    zu2
    zu2 2022/03/05
  • 日本学術会議の公開シンポジウムで人文・社会科学のデジタル研究基盤がテーマとなります - digitalnagasakiのブログ

    今度の土曜日、1/22に、日学術会議の公開シンポジウム「総合知創出に向けた人文・社会科学のデジタル研究基盤構築の現在」が開催されます。 日学術会議には「分野別委員会」があり、それぞれの委員会が分科会を設置して特定のテーマについて議論します。多くの分科会は 1つの分野別委員会の下で活動をしますが、今期は、心理学・教育学委員会、言語・文学委員会、哲学委員会、社会学委員会、史学委員会、地域研究委員会、情報学委員会の 7つの委員会が合同で「デジタル時代における新しい人文・社会科学に関する分科会」を設置して、デジタル・ヒューマニティーズやデジタル技術を用いた社会科学の現状と課題についての議論を行っています。その活動の一環として開催されるのが、1/22の公開シンポジウムということになります。 プログラムは以下のようになっており、人文・社会科学、なかでも、これまであまり採り上げられてこなかった質的研

    日本学術会議の公開シンポジウムで人文・社会科学のデジタル研究基盤がテーマとなります - digitalnagasakiのブログ
    zu2
    zu2 2022/01/18
  • Vue.jsで簡単地図マッピング - その2 マーカー表示編 - digitalnagasakiのブログ

    さて、前回記事に引き続き、 Vue.jsで簡単地図マッピングです。 マーカーの地図上での表示 今度は、マーカーを表示してみましょう。 すでにここまでインストールしたモジュールでマーカーの表示はできますので、あとは タグやスクリプトを書いていけば…というところなのですが、一つ注意点があります。 どうやらこのLeafletには少しバグがあるらしくて、マーカーの画像がうまく表示されません。 そこで、 my-app-test/src/main.js というファイルに、以下のものを追記します。 import L from 'leaflet'; delete L.Icon.Default.prototype._getIconUrl; L.Icon.Default.mergeOptions({ iconRetinaUrl: require('leaflet/dist/images/marker-icon

    Vue.jsで簡単地図マッピング - その2 マーカー表示編 - digitalnagasakiのブログ
    zu2
    zu2 2022/01/18
  • Vue.jsで簡単地図マッピング - その1 準備編(2021/12/13追記) - digitalnagasakiのブログ

    前回はTEIファイルから地図マッピングをする話でしたが、今回は少し違う角度から取り組んでみます。 最近、JDCatデータのお試し検索サイトというものを作ってみました。 人文社会科学の研究データを総欄できるサイトとして最近運用が始まった JDCatというサイトがありますが、 こちらで集約して検索できるようにしているメタデータはCC0で公開されていますので、 せっかくのCC0を活かして教材作り等に使えないかということで試しに作ってみたのが 上記のお試し検索サイトです。ちなみにソースコードはこちらですが、 ファセット検索の部分がお手製コードなので非常に微妙ですのであまり じっくりみないでください…。通常はここは、ElasticsearchとかApache Solr等で 検索して戻ってきたファセットのデータを使うところを、検索自体を Javascriptの中でやってしまっているので、ファセットの処

    Vue.jsで簡単地図マッピング - その1 準備編(2021/12/13追記) - digitalnagasakiのブログ
    zu2
    zu2 2022/01/18
  • サンスクリット写本 データベースを作った話 - digitalnagasakiのブログ

    最近、サンスクリット写のデータベースを作りました。といっても、文字起こししたテキストデータベースではなくて、 デジタル画像のデータベースです。世間ではむしろ「デジタルアーカイブ」と言った方が通りがいいでしょうか。 一人で作ったわけではなくて、メタデータを作ってくださった人と、デジタル画像を撮影してくださった企業、 撮影された画像を検品してくださった人、撮影等の費用を捻出するために助成金を取ってくださった人、 その助成金を出してくださった組織、といった色々なステイクホルダーがあり、また、そういったデジタルに 関することとは別に、この資料を集めてくださった人たち、大事に整理・所蔵してきた図書館の方々、という、 現物に関するステイクホルダーの方々もおられます。 私の役割は、そういった方々の間を回って話をしたり色々作っていただいたりしながら、 現物のサンスクリット写の「デジタル代理物」としての

    サンスクリット写本 データベースを作った話 - digitalnagasakiのブログ
    zu2
    zu2 2021/10/07
  • 著書・共著書は業績であり続けられるのか - digitalnagasakiのブログ

    ※書いていたら長くなってしまったので結論だけ先に書いておきますと、「学術出版社の皆さま、明示的に査読制度を作っていただくとよいと思います」という話を書いております。 研究業績とはどういうものか、ということについて、ずっと考えております。先日はパワポ資料が業績になるかどうか、ちょっと書いてみたところでした。もちろん、業績の「評価」は 評価する主体が基準を決めるものですから、自由に決めてよいのですし、パワポ資料を他のスタイルの研究発表と公平に 評価する基準を作れるのであれば何の問題もありません。個人的には、粗製濫造が可能であり記号の標準化も 不十分なパワポ資料を評価するのはすごく難しいだろうと思いますが、内容に踏み込まずに何がが作られていることさえ 確認できればよいとか、あるいは、altmetricsを評価基準に持込むというようなことであれば結構いけるかもしれないとも思います。 ということで、

    著書・共著書は業績であり続けられるのか - digitalnagasakiのブログ
    zu2
    zu2 2021/10/07
    “「理系」でもSTAP細胞論文に代表されるように、論文取り下げは 結構ありますし、とくに我国は論文取り下げ大国であり、「撤回論文数」世界ランキングでは 圧倒的な存在感を誇っているようですので、”
  • 書物のグローバルな歴史における日本の位置付け - digitalnagasakiのブログ

    今夜は慶應義塾ミュージアム・コモンズのシンポジウム「KeMCo国際シンポジウム|景——書物文化がつくりだす連想の風景」を 拝聴して勉強させていただいた。 前大英図書館収書・司書部長のクリスチャン・イエンセン氏、トロント大学の中世英文学教授、アレクサンドラ・ギレスピー氏、オクスフォード大学ボドリアン日研究図書館長のアレッサンドロ・ビアンキ氏という豪華な海外メンバーに加えて、日からも松田隆美氏、佐々木孝浩氏、徳永聡子氏、という豪華メンバーに加えてディスカッションは間友氏が仕切るという、慶應大学の盤石さを感じさせる素晴らしい構成のシンポジウムだった。 ベンヤミンのアウラを媒介としてミュージアムと図書館における価値の在り方の違いを明快に示した冒頭のイエンセン氏の講演は、このシンポジウムのみならず、ミュージアム・コモンズや、さらに、議論の場の形成に課題を抱える日のデジタル・アーカイブにヒン

    書物のグローバルな歴史における日本の位置付け - digitalnagasakiのブログ
    zu2
    zu2 2021/06/05