タグ

情報検索に関するkitoneのブックマーク (2)

  • お題「最近学校図書館の会社をとりあげたというNHKの番組が見たい」: egamiday 3

    ありがたいことに、最近になってぽつぽつと寄席からお声がかかるようになってまいりまして、まああたしみたいなもんでよければというんで、高座に上がらせていただいているわけなんですが、先般、情報探索演習という噺の、つかみというかまくらというか、まず最初にこういう例題を考えてみましょう、ということでこんなお題になったわけです。 先生に、「最近NHKのビジネス番組で学校図書館の会社について取り上げられていたらしいのですが、見られませんか?」って相談されたよ、どう答える? いや、実際にはこの『ルソンの壺』で「リブネット」が取り上げられた回を、みんなでビデオで見て、意見を言い合う、っていうことをうちのお客さんたちはもう済ませてたわけなんですが、そこはそれ、ルソンの壺という番組名もリブネットという会社名もまったく知らない、という体で「インターネット」情報探索してみると思いねえ、ということでお客のご機嫌をうか

  • 転置インデックスの圧縮 - tsubosakaの日記

    Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。 利用したデータは英語版Wikidiaの全記事で 文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。 無圧縮の転置インデックスのフォーマットは 単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。 これに対して各圧縮アルゴリズムを適用した結果は アルゴリズム 無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

    転置インデックスの圧縮 - tsubosakaの日記
  • 1