タグ

ブックマーク / private.ceek.jp (23)

  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

    myrmecoleon
    myrmecoleon 2011/01/25
    ふむふむ。
  • 図書館情報専門学群で Google Apps が利用可能に - Ceekz Logs (Move to y.ceek.jp)

    myrmecoleon
    myrmecoleon 2010/12/04
    見てる。って @ceekz さんの記事やw
  • 学士論文の機関リポジトリ登録は見送り - Ceekz Logs (Move to y.ceek.jp)

    残念…。ということで、昨日(7日)の事内容です。 夜は、さかいで母親と焼肉をべました。パクパク。 自分の学士論文(学位論文)を筑波大学の機関リポジトリである つくばリポジトリ に登録したかったのですが、見送りとなりました。筑波大学図書館、指導教員は前向きでしたが、学類が後ろ向きなようです。大人の事情ですね…。いつか登録できますように。 さかい (夜) 焼肉

    myrmecoleon
    myrmecoleon 2009/04/13
    「大人の事情」
  • 2008年度下期未踏ユースに応募しました - Ceekz Logs (Move to y.ceek.jp)

    2004年度未踏ユースに応募して不採択だった僕ですが、周りの勧めもあり、再度チャレンジしてみました。 ・貸出履歴とレコメンドサービス (2008年10月26日) まぁ。このテーマで未踏に応募してみようかな。 ということで、このテーマで出しています。 前回は、当時の著作権制度(現在も同様の問題を抱えたまま)を打ち砕くために、「経済産業省と IPA文化庁などに検索エンジンが合法化できるように著作権法の改正を働きかけるべきだ」などという主張を行ったのですが(オーディションで実際にこの通り喋った)、今回は、自分で図書館の既存概念を打ち砕けるように頑張ろうと思います(著作権法はそろそろフェアユース規定が出来そうなので様子見)。 現在、アマゾンをはじめとしたECサイト(ショッピングサイト)で、レコメンドエンジンが導入されている。レコメンドエンジンは、推薦システム等とも呼ばれ、協調フィルタリング(C

    myrmecoleon
    myrmecoleon 2008/11/29
    「貸出履歴とレコメンドサービス」ちょうど先日原田先生がされてた(Next-Lじゃないほう)発表を思い出す。貸出履歴レコメンドの実験と学生による評価までやってた。
  • 貸出履歴とレコメンドサービス - Ceekz Logs (Move to y.ceek.jp)

    図書館利用者の貸出履歴がレコメンドサービスに利用できうることは結構知られていると思うのですが、時系列データを加えると面白そうですね。 現在の協調フィルタリングは、複数人のデータの重複具合を見てレコメンドしてるんだけど、ぼくはこれに時系列データを加えたいと思っています。 数日前に書籍の協調フィルタリングに時系列データを加えた方が面白いという書き込みを見かけ、頭の片隅においていました。似たようなアイデアですが、ニュースの関連記事検索で時系列データを使うと、ある事象を追うのに非常に便利なのではないかと思っていました(数年前に未踏ユースに出したアイデア)。 要約:OPAC(図書館蔵書検索)の検索語にパスファインダーに該当するトピックのキーワードがあるのならば、そのパスファインダーの文献を示してみてはどうかという提案 数日後、図書館の OPAC にパスファインダーの文献も表示すればよいというのを見か

    myrmecoleon
    myrmecoleon 2008/10/27
    時系列まで含めるとかなりの量のデータがないと特定の人の読書履歴を追いかけるリコメンドになりそう/一緒に借りた本とかは面白いかも。前に「一緒にブログに書いた本」による協調フィルタリングやったっけ
  • 図書館とホームレスの話題について - Ceekz Logs (Move to y.ceek.jp)

    久しぶりに図書館の話題。 ・図書館にも女性専用席 ホームレス対策…「不公平」の声も (イザ!) 東京都内の図書館で、女性専用・優先席を設ける動きが広がっている。現在のところ、23区内220館のうち8館で実施。女性専用車両の痴漢対策というよりは、主な理由がホームレス対策だ。 東京都内の図書館で、ホームレス対策のため女性専用・優先席を設ける動きが広がっているという記事です。ネット上では様々な意見が交わされています。 ・都内在住の方は気管支炎喘息の治療が無料 都内では気管支炎喘息の治療が無料であると言うことを取り上げましたが、この種の助成情報は図書館で得られるのかな…と疑問に思っています(得られないと予想)。図書館は、現実的に「無料貸屋」であり、書庫に過ぎないのですが、来は、情報提供の窓口だと思うのです(図書は情報の一種に過ぎない)。そして、助成情報も図書館が扱う「情報」の一種なのでは無いか

    myrmecoleon
    myrmecoleon 2008/09/08
    「この種の助成情報は図書館で得られるのかな」他県だとその手の行政情報を告知する掲示板のある図書館は珍しくないですよ。都内はこのへんの方ならわかるかも http://www.tokyo-toshokan.net/
  • NII は DC の限定子を指示した方が良いと思う - Ceekz Logs (Move to y.ceek.jp)

    学術機関リポジトリ横断検索の開発を続けていますが、メタデータの要素名の統一の無さにうんざりしてきました。先人に学ぶということで、既に実装されている JuNii+ の仕様を参考にしています。 ・JuNii+ハーベスタ機能実装仕様 - NII JuNii+のハーベスタは次のようなリクエストにより定期的にハーベスティングを行います。 JuNii+ のクロールは OAI-PMH を利用し、独自規格の junii2 形式のデータを収集しているようです。 ・メタデータ・フォーマットjunii2 - NII junii2とは、国立情報学研究所が機関リポジトリの相互運用性確保のために策定したメタデータ・フォーマットです。 junii2 は oai_dc に代わる独自規格のようです。また、ウェブ公開用には Dublin Core (以下 DC)も定義されています(内部データの管理用なので DC といえるかも

    myrmecoleon
    myrmecoleon 2008/04/09
    メタデータの設計が不十分だと,利用側が困るよ的な話。検索できれば(テキストが入ってれば)よいというものではない。
  • OAI-PMH BaseURL が判明していないリポジトリ - Ceekz Logs (Move to y.ceek.jp)

    各機関に問い合わせれば済む話ですが、まずは、日記で情報提供をお願いしようと思います。集合知の試みとも言えます。単に、面倒事を押し付ける試みとも言えますが…。 DC をクロールしようと思っていたのですが、現在は JuNii+ と同じく junii2 をクロールしようかと傾いています。 OAI-PMH を利用するようにクローラを書き換えました。伴い、各機関の OAI-PMH BaseURL が必要になりました。リポジトリシステムの標準設定から推測したり、機関リポジトリのディレクトリである OpenDOAR などを当たったりしていますが、未だに OAI-PMH BaseURL が判明していないリポジトリがあります。 ・T2R2 東京工業大学リサーチリポジトリ http://eprints.it.ss.titech.ac.jp/perl/oai 旧システムの OAI-PMH BaseURL は判明

    myrmecoleon
    myrmecoleon 2008/04/08
    ああ,やっぱり妙な実装してるとこがあるんだな。/鹿児島大は過去にそのリクエストで機能してた形跡があるので一時的な不調か。東工大は独自システムだから未実装の恐れも。
  • 学術機関リポジトリ横断検索構想 - Ceekz Logs (Move to y.ceek.jp)

    Development の話題かもしれませんが、構想は Toshokan に書くということで。 学術機関リポジトリの横断検索を開発します。横断検索を実装した暁には、フィード(RSS)出力機能を付けたいと思います。 宣言した通り開発に着手しました(現実逃避とも言います)。リポジトリシステムに DSpace を採用している機関(64機関)を収集し、約28万件のデータ(タイトルと URL のみ)が集まっています。また、冒頭のスクリーンショットの通り、タイトルで検索できる仕組みを作成してみました。 今後はメタデータの収集を行いますが、予備調査では、各機関のメタデータがまちまちなので統合が難しそうな予感。まずは、使われている要素名の統計を取るところからですね。その後、統合ルールを決めたいと思います。 現在調査中ですが、メタデータ交換プロトコル OAI-PMH を利用すればクロールが楽になりそう(Li

    myrmecoleon
    myrmecoleon 2008/04/01
    「リソースの種類は非常にカオス」ですよねー。そのへんの数量的なイメージが見えたりすると面白いかも。論文何割,自機関発行誌(紀要等)何割,特別コレクション電子化何割,みたいな。
  • 横断検索の実現方法とか - Ceekz Logs (Move to y.ceek.jp)

    帰省中ですが、図書館の話題です。マウスが無いので面倒…。 某所で「学術機関リポジトリの横断検索を開発する」という宣言をしたため、後に引けなくなりました…。既に 筑波大学学内プロジェクト 機関リポジトリ横断検索 があるんですけどね…。今回は、横断検索の種類について述べたいと思います。 ・はてなブックマーク - はじめての文献複写申込とか - Ceekz Logs ・はじめての文献複写申込とか - Ceekz Logs 長野のやつは、いわゆる横断検索だと聞いてます。現状の各館のシステムは基そのまま 長野県が県下の図書館にある蔵書を一括検索できるシステムを準備しているということですが、僕は NACSIS-CAT に参加すると思ったのですが、風の噂では「横断検索」になるということです。図書館界隈の「横断検索」と僕の思っている「横断検索」に相違があるかもしれませんが、3通りの実現方法があると思いま

    myrmecoleon
    myrmecoleon 2008/03/23
    「NACSIS-CAT は、この方法」いや,蔵書情報を入力するのは各館なのでSBMのが近い。長野は非統合型かな。ゆにかねっとが小規模ロボット検索に近い/RSSじゃなくOAI-PMHなら全部についてる。例えば筑波 http://tinyurl.com/2uvqwm
  • はじめての文献複写申込とか - Ceekz Logs (Move to y.ceek.jp)

    金曜日といわずに週末は図書館の話題ということで。出来るだけ金曜日に書きたいのですが…。 ・CiNii - サービス原価を基礎にした「行革」議論を(上)図書館の貸し出し予約、1冊にも税金から566円--ABC分析で業務の枠組みとプロセス改革を検討する 日図書館に関する費用対効果などを示したデータが欲しいと思ったのですが、図書館界隈の方々は認知していないようでしたので、自分で探してみようと思います。 という挑発的な事を書いていたら(図書館の話題はゆっくりひっそりと)、前記の文献を愚智提衡而立治之至也の方に紹介して頂きました。ありがとうございます。 図書館で文献複写申込を行い、入手したのでその顛末など。 筑波大学附属図書館で文献複写申込(私費)を行いました。図書館 Web サービスで行えるということで、ワクワクしながら自宅で申込を行おうと思ったのですが、マニュアルに書かれている「私費文献複写

    myrmecoleon
    myrmecoleon 2008/03/17
    「1枚30円 」それはわりと安いとこだねー。ちなみに他大学から筑波大に複写頼むと,白黒一枚60円とられます(死 昔は一枚35円くらいが定番だったみたいだけど,最近は値上がりの傾向あり
  • 論文の複製は図書館で行うべきとか - Ceekz Logs (Move to y.ceek.jp)

    金曜日は、図書館の話題をひっそりと。 2週間前と同様、著作権法と図書館(+ 大学)の関係を考えてみたいと思います。 ・「著作権は混迷」「ダメと言ってもネットは止まらない」──東大中山教授 - ITmedia News デジタルコンテンツ協会のシンポジウムでの中山信弘教授(東京大学)の講演を題材にしたいと思います。題材という言い方は不適切ですが、面白い話題に触れられていましたので。 例えば中山教授が大学の研究室で他人の論文をコピーする行為も、「私的使用の範囲を超えているから」著作権侵害に当たると話す。 実際にどのように語られたのか定かではないですが、恐らく「研究室に必要な論文を複製する」という意味だったのではないかと思います。純粋に「研究室」という場所で複製するだけであれば、私的使用の範囲を超えないと思います(私的使用の複製が複製を行う場所で制限されるのであればご指摘下さい)。 「研究室に必

    myrmecoleon
    myrmecoleon 2008/03/10
    研究室での活動は大学等の業務として行っているという解釈ができるので,私的とは言いづらいのですよ。場所では限定されないが用途では限定されます。輪講は授業とみなせる,というかそういうのを想定した規定。
  • カレントアウェアネス・ポータルに少し失望しました - Ceekz Logs (Move to y.ceek.jp)

    図書館系の話題を追うようになってから、カレントアウェアネス・ポータルのフィードも購読しています。 カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。 3月のリニューアルに伴い、旧リソースにアクセスできなくなりました。 http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=4951 1ヶ月ほど前に取り上げた「インディアナ州の公共・大学図書館の経済効果に関するレポート」という記事のアドレスですが、リニューアルに伴い、アクセスできません。 http://www.dap.ndl.go.jp/node/7272 新リソースは、こちらのようですね。 http://www.dap.ndl.go.jp/ca/modules/car/wp-rss2.php 同様にフィードのアドレスも変更され

    myrmecoleon
    myrmecoleon 2008/03/04
    なんかCAPの中の人ががんばってるなあ,と感じて微笑ましい。
  • 書籍と雑誌を特定するための方法とか - Ceekz Logs (Move to y.ceek.jp)

    図書館の話題を必ず「金曜日」に書くと宣言しておきながら、1日遅れました。これでは、信頼を得ることが出来ませんね…。仕切りなおしながら、信頼獲得に努めたいと思います。 今回は、図書館の話題から少し離れ、書籍や雑誌をユニークに特定する仕組みを考えたいと思います。考えたいというか、知りたいのです。ウェブ棚システム(積読管理システム)の開発を行いたいのですが、何の ID をベースに管理するか悩んでいます(2月29日 発表会)。 書籍は「ISBN」で管理でき、雑誌は「定期刊行物コード」で管理できそうです。従って、基的に JAN コード(EAN コード)で管理すれば良いですね(ISBN-10 は ISBN-13 に変換する)。雑誌には ISSN コードもあるようですが、号を特定する仕組みではないため、棚管理としては不適です。 JAN コードは、書誌情報を Amazon.co.jp で取得できるの

    myrmecoleon
    myrmecoleon 2008/03/03
    JANなしなら書籍はやはりNBN。雑誌は普通にISSNがデファクト。ISSNを用いた巻号レベルの管理としてはSICI等がある。同人誌は課題/複数種コードの利用が最良。内部キーは独自で,ISxNやJANやNCIDやNBNに関連付け,が妥当と思う
  • 図書館における著作権法第三十条と第三十一条とか - Ceekz Logs (Move to y.ceek.jp)

    図書館系 Project のブログは不定期に更新されますが(ほとんど更新されないけど)、日記では、図書館の話題を必ず「金曜日」に書くと決めています。増やすかどうかは検討中。 ・目録の著作権はどうなってるの? 先週、図書目録の著作権に関する話を書いてみたので、図書館での複製について書きます。著作権法の第三十条は「私的使用のための複製」に関する条項であり、第三十一条は「図書館等における複製」に関する条項です。 この話題を書こうと思ったきっかけは、筑波大学附属図書館(中央図書館)に設置されたコピー機の前に、第三十一条を根拠に複製できる旨は掲示されていますが、第三十条を根拠に複製できる旨が掲示されていなかったからです(最後に顛末を書いています)。 僕が導き出した結論は、以下の通りです。 第三十条 著作権の目的となつている著作物(以下この款において単に「著作物」という。)は、個人的に又は家庭内そ

    myrmecoleon
    myrmecoleon 2008/02/25
    30条の複写も可能です。ただし,31条の代替として設置されている図書館のセルフコピー機では31条以外での複製は禁止すべきことを複写権団体との契約上規定されていますので注意。そもそも31条でのセルフコピーが灰色。
  • 目録の著作権はどうなってるの?とか - Ceekz Logs (Move to y.ceek.jp)

    金曜日は、図書館の話題をひっそりと。 定期的に図書館の話題を書いていくため、カテゴリ Toshokan を準備しました。一般的には Library かと思われますが、海外図書館と区別するということで…。筑波大学の AC 入試が、海外の AO 入試と区別しているのと同様です。 カテゴリを新設したので、週1回更新を改めるかもです。まぁ。何時まで続くのか…。 検索システムやリコメンドエンジンの研究・開発を行うために、筑波大学附属図書館の目録データが欲しいです。 先週、目録のデータが欲しいと書いたわけですが、その著作権はどうなっているのだろう。目録の集合体である目録データベース(MARC)は、データベースの著作権が認められるのと同様、著作権を有すると思うのですが、小分けされた目録そのものはどうなんでしょう。 目録の作成には、非常に中立性が求められ、「思想又は感情を創作的に表現したも」ではまずいと

    myrmecoleon
    myrmecoleon 2008/02/22
    とりあえずうちの所蔵館マップでNIIとNDLの目録読み出してるが今のところクレームはないらしい。/個人的には,学習席は図書館とつながってても図書館じゃないという位置づけで用意したら,とか思ってたり
  • 図書館のゲートの位置とか - Ceekz Logs (Move to y.ceek.jp)

    金曜日は、図書館の話題をひっそりと。 書籍の倉庫としての図書館と、利用の場としての図書館を上手く両立できないものか。少し考えがあるのですが、そのうち別のエントリーに。 先週は、こんなことを書いていました。浅はかな考えですが、ゲートの位置を工夫することで両立できるのではないかと思っています。筑波大学附属図書館(中央図書館)を題材に。 早い話、書籍を置いている倉庫的な場所にはゲートを設置し、机などを置いているラウンジ的な場所にはゲート無しで入れるようにしたら良いのでは、ということです。図書館にラウンジが必要ないという意見もあるでしょうけど…。 そもそも筑波大の附属図書館は滞在型の図書館を目指すべきなのか、ってのが焦点の一つかと。 図書館の来館者数を指標にする場合、ポジティブな来館とネガティブな来館を分ける方が良いとの事でした。「学習用途で図書館の机を利用する」という行為がポジティブな来館であり

    myrmecoleon
    myrmecoleon 2008/02/13
    「ゲートを蔵書の位置だけに設置する」アイディアとしてはありなんだが借りてない図書を閲覧席で読めないんだよなあ「この日に Project Shizuku が重大な発表を行うという噂です。ソースは脳内」
  • 筑波図書館系新年会なるものを - Ceekz Logs (Move to y.ceek.jp)

    寝すぎ。ということで、昨日(25日)の事内容です。 昼は、カレーコーナーで唐揚チーズカレーべました。カレーにチーズは結構美味しいと思う。 夜は、筑波図書館系新年会なるもに参加。主賓は かたつむりは電子図書館の夢をみるか の中の人。モテそうな風貌であった。羨ましい。主催に呑むより美味しいものをべたいとリクエストしておいたら、竹園の 花Q になりました。黒みつ牛が美味しかった。また行きたい。 筑波図書館系新年会と言いながらも図書館の話をあまりしなかったかも。美味しいべ物の取り合いになってた。図書館の話が少し出たとすれば、“現状”の公共図書館の必要性は怪しい、源氏物語は有害図書、蔵書検索改善のために TULIPS の全目録が欲しい、対照実験は計画的に、とかかな。よく覚えていない。 カレーコーナー (昼) 唐揚チーズカレー 花Q (夜) 新年会

    myrmecoleon
    myrmecoleon 2008/01/30
    美味しそう。
  • 図書館の話題はゆっくりひっそりと - Ceekz Logs (Move to y.ceek.jp)

    昨年末から図書館について考えていたのですが、少し休憩しようと思います。疲れた…。 日図書館に関する費用対効果などを示したデータが欲しいと思ったのですが、図書館界隈の方々は認知していないようでしたので、自分で探してみようと思います。探す傍ら、ネタを見つけたら、コメントを書くような感じで。 --- ・図書館の自由に関する宣言 図書館は、基的人権のひとつとして知る自由をもつ国民に、資料と施設を提供することをもっとも重要な任務とする。 自分のエントリの中で、知る自由と書くべきところを知る権利と書いているところがありました。「知る権利」は、娯楽的利用よりも情報公開などの公的な雰囲気がありますね。 「知る権利 ⊆ 知る自由」の関係かな。とすれば、公文書の管理も「図書館」で良さそうだけど…。でも、図書館は利用者に優しい施設であって欲しい。公文書や貴重書の保管を公文書館が担い、その電子データの閲覧が

    myrmecoleon
    myrmecoleon 2008/01/14
    図書館の費用対効果の資料か。何かあったな/学術雑誌は冊子体も含めて各研究室の購入状況を把握してないと,電子ジャーナル契約のさいに研究室分まで金払うことになるので,EJ導入館では管理してないとこのが珍しい
  • 公立図書館運営費は医療費にまわそう! - Ceekz Logs (Move to y.ceek.jp)

    素人が図書館に喧嘩を売るエントリーの第二段です。著者は、図書館の素人です。しかし、著者はサーチャーを支援するシステムを造りたいと思っています。図書館の司書は、サーチャーの役目を負っているものだと思っていましたが、どうも「単なる好き」の集団な気がしてきたところから、現在の図書館に疑問を感じるようになりました。そこで…。 「後で考える」メソッドを利用して、後回しにしていました。 min2-fly 氏にお返事を頂きましたが、心の霧は晴れませんでした。また、関連するエントリーが色々なところで書かれましたが、やはり霧が晴れません。もちろん、僕の性格に起因するところもありますが…。 無償の根拠として「知る権利は大事なものだから誰もがアクセスできるようにするべき」と考えていらっしゃる人が多いようです。素晴らしい!でも、生存権の方が優先されて欲しいので、図書館の運営費用は、医療費に全額移行しては如何でし

    myrmecoleon
    myrmecoleon 2008/01/04
    図書館運営費なんて医療費に対しては雀の涙なので,図書館に集まってた老人も病院に集まるようになって病院がヒーヒー言うけど財政は立て直らない,みたいな感じかな/うちは医学部の大学図書館なので複雑