subarukunのブックマーク / 2005年11月7日

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

はてなブックマーク

タグ

2005年11月7日のブックマーク (2件)

Amazon.co.jp: 萌えるシリーズ萌える法律読本ディジタル時代の法律篇: プロジェクトタイムマシン: 本

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2005年11月7日のブックマーク (2件)

Amazon.co.jp: 萌えるシリーズ 萌える法律読本 ディジタル時代の法律篇: プロジェクトタイムマシン: 本

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Amazon.co.jp: 萌えるシリーズ萌える法律読本ディジタル時代の法律篇: プロジェクトタイムマシン: 本