タグ

iirに関するTAKESAKOのブックマーク (3)

  • 「Introduction to Information Retrieval」輪講第20回

    「Introduction to Information Retrieval」輪講第20回 2009-02-28-2 [IIR] 「Introduction to Information Retrieval」の輪講の第20回です。 この輪講(勉強会)の最終回なのです。 - Introduction to Information Retrieval http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 今回も六木ヒルズの百度 (http://www.baidu.jp/) の会議室を会場として使わせて頂きました。ありがとうございます。 今回の内容 id:naoya 氏による恒例の復習プレゼン。 第18章「Matrix decompositions and latent semantic indexing」を

    「Introduction to Information Retrieval」輪講第20回
    TAKESAKO
    TAKESAKO 2009/03/02
  • Array::Gap - naoyaのはてなダイアリー

    明日は一ヶ月ぶりのIIR輪読会 です。主催のたつをさんから「教科書の話題から何か適当に実装せよ」という課題が出ていたので、5章 のインデックスの圧縮の所で見た Variable byte codes (以下 VB code) を使った圧縮の実装を作ってみました。 整列済みの整数を圧縮する手法 ここでの圧縮のポイントは二つ。 昇順に並べられた整数を、整数そのままの数で扱うのではなく、一つ前の要素との差で扱う。差で扱うと 21,314,156 → 21,314,157 という数は "1" というより小さい数で表現することができる。(整列済みなので、差が分かれば逆の操作で復元が可能) 32 ビット int の整数を固定長 32 ビットで表現するのではなく可変長バイトで表現する。(これが VB code) VB code なら小さな数字は 32ビット = 4バイトよりも小さなビット数で表現できる

    Array::Gap - naoyaのはてなダイアリー
  • Introduction to Information Retrieval #9 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval 輪読会 9章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_09.ppt 9章は、検索結果の適合性を改善するするための二つのアプローチ、Relevance Feedback (RF) とクエリ拡張についての話です。 検索結果のドキュメントに対してユーザーから追加の入力 (Relevant か Non-relevant か) を受け取るのが RF です。受け取ったフィードバックは、ベクトル空間でベクトルの重心を使ってクエリベクトルを最適化することに利用できます。最適化のアルゴリズムとして Rocchio アルゴリズムを利用します。ただし、特に Web 検索などにおいては、ユーザーは明示的なフィードバックを好みません。そこで、ユーザーからの入

    Introduction to Information Retrieval #9 の復習資料 - naoyaのはてなダイアリー
  • 1