情報距離に基づく 単語 N-gram の 大域的重み付け手法 白川真澄, 原隆浩, 西尾章治郎 大阪大学 大学院情報科学研究科 NLP若手の会 (YANS) 第9回シンポジウム@マホロバマインズ三浦,2014年9月22日(月) 本研究の三つの貢献 IDFと情報距離 (Information Distance) の関係性の解明 情報距離に基づく単語N-gramの大域的重み付け手法の提案 拡張接尾辞配列とウェーブレット木による効率的な計算方法の実装 2 研究背景 3 語の重み付け (Term Weighting) 4 TF-IDF 局所的重み 大域的重み 対象の語が今注目している 文書でどの程度重要か 対象の語が一般的に どの程度重要か 語の重みは出現する 文書によって変動 語の重みは出現する 文書によらず固定 語の重み付け手法 5 TF-IDF �� ��, �� = ����(��, �