[B! thesis][ir] uchiuchiyamaのブックマーク

uchiuchiyama id:uchiuchiyama

thesisとirに関するuchiuchiyamaのブックマーク (3)

検索メイニアック！: テストコレクションとプーリング
情報検索入門シリーズ。テストコレクション(test collection)とは、評価用データセットのこと。特に、様々な研究機関が共有し、異なる研究環境間でも評価結果の比較ができるようしたものを自前の評価用データと区別するために標準テストコレクション(standard test collection)と呼ぶこともある。情報検索のテストコレクションは通常、検索対象である文書セットと、検索課題セットと、各検索課題に対する正解(適合文書)セットから構成される。検索システムを評価する際には、各検索課題をシステムに与えて得られた検索結果に対し平均精度などの評価指標を計算し、さらに評価指標の検索課題セットに関する平均などを算出する。テストコレクションは歴史的に数百～数千件の文書を扱うものが多かったが、1992年に米国の評価型ワークショップTREC(Text Retrieval Con
uchiuchiyama 2007/08/26
ir

research

thesis
リンク
検索メイニアック！: 地図ではないMAP
情報検索入門シリーズ。情報検索の研究をやっている人で、MAPと聞いて地図を思い浮かべるひとはあまりいないだろう。検索メイニアックにとってMAPとは、現在最も広く使われている情報検索評価指標、Mean Average Precisionを意味する。再現率と精度のトレードオフについては再現率と精度のエントリおよびhobokingさんへのお返事で述べた。 Average Precisionは再現率と精度を統合した評価指標で、順位つき検索結果の評価に適している。 (ところで最近、検索結果の順位を明示しない検索エンジンがあるが、個人的には潔く順位くらいは示してくれたほうが使い勝手がいいと思う。) 検索結果の上位から順番に、文書(例えばwebページ)が正解であるかそうでないか調べていく。そして、正解を見つけるたびに精度を計算する。例えば、1位が不正解、2位が正解である場合、2
uchiuchiyama 2007/08/26
ir

research

thesis
リンク
検索メイニアック！: 再現率と精度とSwanson
情報検索入門シリーズ。検索システムを評価する際の古典的な評価尺度に再現率(recall)と精度(precision)がある。再現率とは検索における「もれ」の少なさを、精度は検索における「ごみ」の少なさを意味する。「もれ」とは、本来検索すべきであるのに検索できなかった文書(webページ、新聞記事、画像など、検索の単位となるもの)、「ごみ」とは、本来検索すべきでないのに検索してしまった文書のことである。再現率=検索された正解文書数/正解文書数精度=検索された正解文書数/検索された文書数例えばある検索要求に対し、本来検索されるべき文書(すなわち正解)が10件あり、実際検索された全文書数は20件で、うち5件だけが正解(適合文書=relevant documentsという)であったとする。この場合、再現率は10件中5件なので0.5、精度は20件中5件なので0.25。
uchiuchiyama 2007/08/26
search

ir

research

thesis
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx