タグ

ブックマーク / digitalnagasaki.hatenablog.com (6)

  • 『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します - digitalnagasakiのブログ

    すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、このを踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。 今回は、『人文学の…データ構築入門』の第一部、第二部のうち、TEIガイドラインに関する部分を中心にしてセミナーを実施します。Transkribusの話はしませんので、あらかじめご了承ください。 予定している内容は大体以下の通りです。 10:00-11:30 人文学のためのテキストデータ構築とTEIガイドライン 12:30-14:30 TEIガイドライン実践演習 14:45-16:15 続: TEIガイドライン実践演習 16:30-17:15 Susan Schreibman先生によるVersioning Machineに関す

    『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します - digitalnagasakiのブログ
  • NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ

    正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで 良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。 lab.ndl.go.jp 正規表現の「.」を試してみる たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。 そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます。 「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、 そのあと分類してカウントしてくれるの

    NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ
  • KHコーダで 「#大学生の日常も大事だ 」を分析してみた(ちょっと追記) - digitalnagasakiのブログ

    #大学生の日常も大事だ というハッシュタグがツィッターを席巻したことがありました。そこで、しばらくこのハッシュタグのついたツィートや、そのツィートをしたアカウントのツィートをツィッタAPIで収集しておりました。 7/10から7/29までに取得した173GBのツィートのデータから、当該ハッシュタグのついた88,082件ツィートを、Pythonであれこれ整形して、さらにKHコーダを使ってちょこちょこいじってみて、なるほど、こういう感じかな、と思ったのが以下の図です。 コーディング:MDS 「今後」と「辛さ」、「施設」と「費用」がそれぞれ近いということ、それから、「横の人間関係」が「勉強・研究」と比較的近いことが興味深いところです。 なお、今回の分析の仕方だと、否定表現も肯定表現も区別できていません。「辛くない」というツィートがあったとしたら「辛い」として カウントされてますので、上の図はそうい

    KHコーダで 「#大学生の日常も大事だ 」を分析してみた(ちょっと追記) - digitalnagasakiのブログ
  • オンライン授業のための情報まとめ - digitalnagasakiのブログ

    これから日でオンライン授業をやるとしたらどういう形で可能なのか、ツィッタをながめていて得られた情報をまとめてみました。(これから徐々に追記していきます) 単位認定するには? 基的に、送受信双方が同時通信に対応できるのであれば、あとは現実的な工夫でなんとかなりそうです。(でもご自身でもきちんと確認してください!) オンライン授業の単位認定の件は、文部科学省告示第百十四号 でいいのかな? https://t.co/xddwO5xcVF ここでは2つのパターンが提示されているが、1つ目は受講生が自宅だとダメかもしれないので、2つ目の「終了後速やかなサポートと意見交換の場の提供」、という方にすればいいのかな?— Kiyonori Nagasaki (@knagasaki) 2020年3月14日 という感じです。わかりやすくまとめられたスライド資料もあります。 第114号でいいと思います。下記の

    オンライン授業のための情報まとめ - digitalnagasakiのブログ
  • デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報 - digitalnagasakiのブログ

    やや間が空いてしまいましたが、先日より何度かご紹介しているTEI (Text Encoding Initiative)に関するご紹介の続きです。 先週、カナダのモントリオールにて開催されたDigital Humaities 2017というカンファレンスで、TEIコミュニティが賞をもらいました。そこで受賞記念スピーチがあったのですが、1980年代終わりにTEIがどういう状況で生まれてどういうことを目指してきたか、ということが創始者達によって語られました。詳しくは別の機会にご紹介させていただきますが、ここで一つ、なるほど、と思ったのは、「全文テクストデータから書誌情報がなくなってしまうことがあるので<teiHeader>を取り決めた」という話でした。今はマークアップ言語の利用が普通ですから、たとえば青空文庫を見てみても、書誌情報がタグで記載されています。たとえば以下のような感じですね。 <di

    デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報 - digitalnagasakiのブログ
  • デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法 - digitalnagasakiのブログ

    前回記事に続けてもう一つ、デジタルアーカイブにおけるテクスト資料の扱いについての記事です。 ここまで、このブログでTEIに関する話を読んできていただくと、「そんなに細かいタグを付けるのは大変だ」と思ってしまわれる人も結構おられるのではないかと思います。しかし、TEIでは、必ずしも細かく深いタグをつけていかねばならないというものではなく、浅いマークアップ(タグ付け)でもTEIであると言えますし、それでも一定の機能を果たすことはできます。 特に、こういったことについて関心があるのは、やはり図書館の方々のようです。デジタル化はするが、内容にあまり深入りすることははばかられる、あるいは、時間的コスト的に内容のタグ付けなどはさすがにちょっと無理、というような状況は、世界中のどこにでもあるようで、しかし、それでもテキストデータを書誌情報とともにうまく流通させるにはTEIを使っておくことが後々有益だろう

    デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法 - digitalnagasakiのブログ
  • 1