タグ

ブックマーク / srad.jp/~yasuoka (6)

  • 機械可読目録(MARC)を自然言語処理に使うには | yasuokaの日記 | スラド

    ネットサーフィンしていたところ、Acrovisionの「自然言語処理とは?自然言語処理が行われる主な流れ6つ活用事例4つを紹介」(2021年3月4日)という記事に、以下のようなワケの分からない文面を見つけた。 図書館などで書籍検索システムに使われる「機械可読目録」は、自然言語処理の前段階として辞書的な役割を果たします。文字を認識する目のように読み取り、変換します。 私(安岡孝一)の知る限り、MARC (MAchine Readable Catalog, ISO 2709:2008)を自然言語処理の前段階に使ったりはしないのだけど。これ、どこかに元ネタがあるんじゃないかと思って、もうちょっとネットサーフィンしてみたところ、TRYETINGの「自然言語処理とは?仕組みや活用事例もあわせて解説」(2021年2月28日)というコラムに、以下のようなワケの分からない文面を見つけた。 機械可読目録はM

  • 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド

    私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。 研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた. そんな偏ったサンプルデータ10で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書

    書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド
  • Re: 武雄市内の小学生 保護者各位 | yasuokaの日記 | スラド

    武雄市において「武雄市内の小学生 保護者各位」と題する怪文書が配布されたらしい。結構、面白い文書なので、一部、引用してみることにする。 このたび、武雄市内児童の読書推進を目的として武雄市図書館の利用カードの一斉作成をすることになりました。 ◇作成にあたりご確認いただきたいこと ・平成25年4月1日の図書館リニューアル以後、すでにお子様が図書館カードを作成されている方はお申し込みの必要はありません。 ・作成いただくカードは2種類のタイプからお選びいただけます。 A. 図書利用カード B. 図書利用カード(ポイント付き) ※それぞれのタイプにより規約がございますので、ご確認の上、お選び下さい。 ・2種類のタイプとも「登録申込書」と「保護者同意書」のご提出が必要となります。 で、「B. 図書利用カード(ポイント付き)」を選んだ場合は、小学生人の名前と年齢、および、保護者の名前と住所と電話番号が

  • 武雄市図書館・歴史資料館と武雄鍋島文庫 | yasuokaの日記 | スラド

    一昨日の「Re: 武雄市図書館歴史資料館と佐賀県公共図書館協議会」に関して、何が目的で部外者が口を挟んでくるのか、という趣旨の御叱正を複数いただいた。気付いている人も多いと思っていたのだが、私(安岡孝一)の目的は、もちろん武雄鍋島文庫だ。 武雄市図書館歴史資料館が所蔵している武雄鍋島文庫は、佐賀県立図書館の鍋島家文庫や蓮池鍋島家文庫、佐賀大学の小城鍋島文庫などと並んで、いわゆる「大」鍋島文庫の一角をなす重要な史資料群だ。個人的なことを言わせてもらえば、たとえ武雄市のTポイント情報が流出しても、私は痛くもかゆくもない。しかし、武雄鍋島文庫が流出するのは困る。もし海外流出などしてしまったら、ショックで夜も眠れない。それほど重要な史資料群なのだ。 ただし、だからと言って、武雄鍋島文庫を閲覧禁止にして、そのまま死蔵されてしまうのは、もっと困る。私も含め、それでは研究にならないからだ。つまり、流

  • 二次史料のみに基づく「歴史」 | yasuokaの日記 | スラド

    手を入れようかとも思ったのだけど、何かパラレルワールドの歴史を読んでるかのような不気味さで、どこから手を付けていいかわからない。 とは書いたものの、つい「要出典」を貼ってしまった。いや、その、どうにも我慢ならなかったのだ。そうしたところ、あまり信頼できない二次史料を持ち出されて「出典」にされてしまったので、私自身、多少憤慨してしまった。 でも、よく調べてみると、これは私が大人げなかったことに気づいた。日語版Wikipediaでは、一次史料を使わないことが推奨されているのだ。端的にはここにあるとおり。 一般に、ウィキペディアの記事は一次資料に基づくべきではなく、むしろ一次資料となる題材を注意深く扱った、信頼できる二次資料に頼るべきです。ほとんどの一次資料となる題材は、適切に用いるための訓練が必要です。特に歴史についての主題を扱う場合がそうです。 (中略) それゆえ一般的に、「一次資料」は注

  • 国会図書館がWikipedia編集を禁止 | yasuokaの日記 | スラド

    Wikipediaの「利用者:安岡孝一」に文献を追加しておこうと、国会図書館からWikipediaへのログインをおこなったところ このページは「i-FILTER」によりブロックされました。 このページは「i-FILTER」により送信サイズが制限されています。 ブロック理由: 個別ブラック除外リスト i-FILTER / © 1999-2009 デジタルアーツ株式会社 というメッセージが出て、Wikipediaへのログインを拒否された。仕方なく、ログインせずにIPuserで「利用者:安岡孝一」を編集しようとしたところ、またまた同じメッセージ。どうやら国会図書館は、Wikipediaをブラックリストに載せているらしい。でも、それだと、国会図書館で見つけた「出典」を手元に置いてWikipediaを編集する、ってのが無理になるんだけど…。

  • 1