タグ

information retrievalに関するmogwaingのブックマーク (4)

  • Introduction to Information Retrieval 輪講第7回 : no hacking, no life

    たつをさんが主催するIIR輪講の第7回に参加してきました。 (今回が初参加。誘って頂きありがとうございます!) 最初に、恒例(らしい)のnaoyaさんからの前回の復習がありました。 「転置インデックスの圧縮は、Termを保存する辞書と、Termの出現位置を保存するPostingの両方が圧縮対象で、それぞれ・・・(省略)などの方法があります」という話で、すごいわかりやすい説明だったので、これだけでもとてもためになりました。拙作のLuxではインデックスの圧縮はまだ実装していないので、5章を見ていろいろやってみようと思います。postingsに関しては、variable byte encodedが圧縮率や実装のしやすさの面でよさそうな感じがしました。 その後、題の6章の「Scoring, term weighting and the vector space model」について担当の能登

  • Information Retrieval

    年度の授業はこちらです。 以下は前年度までの授業内容 インターネットと計算機の発達によって available になった世界中の情報資源のうちの多数を占めるテキストデータの扱いについて説明します。第1に、言語情報資源の扱い方、統計などについての基礎を説明します。第2に、情報検索のシステム、モデル、評価方法などについて説明します。これらのトピックの発展である情報抽出や言語横断型の情報検索などについても説明していくつもりです。 内容 はじめに テキストについて この講義で使う数学的知識 文字コード系.....付録pptファイル 使用言語の推定 言語の統計.....付録pptファイル 言語資源.....付録pptファイル ターム抽出 タームの分布モデル.....付録ppファイル 構造化文書 情報検索 情報要求.....付録pptファイル インデクシング.....付録pptファイル 質問の構

    mogwaing
    mogwaing 2008/03/15
    全部ダウンロードしておこう
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • Dynamic Programming による類似文字列マッチの実装例

    Dynamic Programming による類似文字列マッチの実装例 2007-01-22-4 [Programming][Algorithm] 「Modern Information Retrieval」(8.6.1 p.216) での Dynamic Programming (DP) の解説のところのアルゴリズムを 素直に Perl で実装したみた。 さらにマッチ箇所取り出しロジックも実装してみた。 # DP はいわゆる「類似文字列検索(あいまい検索)」に使うと 便利なalgorithm。 実は、大学院でも前の会社でも、PerlやらC++やらで実装して使ってた。 単純ながら使い勝手もよく、まさに現場向きかと。 grep 式に頭から見ていくので計算量的にはイマイチなのだが、 転置インデックス検索などで範囲を絞ってから適用すれば実用上問題ない。 ■定義みたいなの Q1. 二つの文字列 "

    Dynamic Programming による類似文字列マッチの実装例
    mogwaing
    mogwaing 2007/05/24
    perlによるDPの実装 わかりやすい
  • 1