Introduction to Information Retrieval 輪読会 7章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_07.ppt 7章の前半は、6章に引き続きスコアリングの話題です。Vector space model での内積計算を真面目にやろうとすると計算量が膨大になるため、いくつかのヒューリスティクスを導入して計算量を削減します。cos 類似性算出のアルゴリズムの見直し、idf や tf あるいは静的なドキュメントの何かしらのスコア (例えば PageRank のようなもの) を使って計算対象のドキュメントを足切りする、Impact ordering により cos 類似計算のループ回数を削減する、などの手法が紹介されています。 後半では、7章までに紹介されてきた各種コンポーネントを統合