タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

thesisとirに関するuchiuchiyamaのブックマーク (3)

  • 検索メイニアック!: テストコレクションとプーリング

    情報検索入門シリーズ。 テストコレクション(test collection)とは、評価用データセットのこと。 特に、様々な研究機関が共有し、異なる研究環境間でも評価結果の比較ができるようしたものを 自前の評価用データと区別するために標準テストコレクション(standard test collection)と呼ぶこともある。 情報検索のテストコレクションは通常、検索対象である文書セットと、検索課題セットと、各検索課題に対する正解(適合文書)セットから構成される。 検索システムを評価する際には、各検索課題をシステムに与えて得られた検索結果に対し平均精度などの評価指標を計算し、さらに評価指標の検索課題セットに関する平均などを算出する。 テストコレクションは歴史的に数百~数千件の文書を扱うものが多かったが、1992年に米国の評価型ワークショップTREC(Text Retrieval Con

  • 検索メイニアック!: 地図ではないMAP

    情報検索入門シリーズ。 情報検索の研究をやっている人で、MAPと聞いて地図を思い浮かべるひとはあまりいないだろう。 検索メイニアックにとってMAPとは、現在最も広く使われている情報検索評価指標、Mean Average Precisionを意味する。 再現率と精度のトレードオフについては再現率と精度のエントリおよびhobokingさんへのお返事で述べた。 Average Precisionは再現率と精度を統合した評価指標で、順位つき検索結果の評価に適している。 (ところで最近、検索結果の順位を明示しない検索エンジンがあるが、 個人的には潔く順位くらいは示してくれたほうが使い勝手がいいと思う。) 検索結果の上位から順番に、文書(例えばwebページ)が正解であるかそうでないか調べていく。 そして、正解を見つけるたびに精度を計算する。 例えば、1位が不正解、2位が正解である場合、2

  • 検索メイニアック!: 再現率と精度とSwanson

    情報検索入門シリーズ。 検索システムを評価する際の古典的な評価尺度に再現率(recall)と精度(precision)がある。 再現率とは検索における「もれ」の少なさを、精度は検索における「ごみ」の少なさを意味する。 「もれ」とは、来検索すべきであるのに検索できなかった文書(webページ、新聞記事、画像など、検索の単位となるもの)、 「ごみ」とは、来検索すべきでないのに検索してしまった文書のことである。 再現率=検索された正解文書数/正解文書数 精度=検索された正解文書数/検索された文書数 例えばある検索要求に対し、来検索されるべき文書(すなわち正解)が10件あり、 実際検索された全文書数は20件で、うち5件だけが正解(適合文書=relevant documentsという)であったとする。 この場合、再現率は10件中5件なので0.5、精度は20件中5件なので0.25。

  • 1