タグ

ブックマーク / nlp.nagaokaut.ac.jp (2)

  • TF・IDF - 長岡技術科学大学 電気系 自然言語処理研究室

    ティーエフアイディーエフ TF・IDF 索引語の重み付け方法のひとつ。 TF(Term Frequency)は文書dに置ける検索語tの頻度 IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数 文書数Nと索引語tが一回以上出現する文書の数df(t)よって次式のように定義される。 IDF(t) = log10 (N / DF(t)) この両者の積を取ることで、索引語の重み付けを行う。 ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きくなる。 また、多くの文書に索引語が出現すれば、値は小さくなる。 [編集] TF・IDF による重要度 文書を特徴付けるキーワードになるようなタームの性質として、その文書に数多く、つまり高い頻度で現れる(TF)、少ない数の文書にしか現れない(IDF)、というふたつを考える。これはシンプルだが、

  • 丹治:「主観表現処理の最前線」シンポジウム - 長岡技科大 自然言語処理研究室

    [編集] NLC「主観表現処理の最前線」シンポジウム [編集] 日時 2008年2月7日(木) 13:00~17:30 2008年2月8日(金) 10:30~17:30 [編集] 会場 湯沢カルチャーセンター (新潟県南魚沼郡湯沢町) [編集] 01.各属性のレビュー・評価値の関係を用いた評判情報の検索支援 ○山田敬之・安村禎明・上原邦昭(神大) [編集] 発表内容 マーケティングに掲示板を用いる方法を採った。 従来は「○○が良い/悪い」という対象を評価していたのに対し、今回は「○○の△△が良い/悪い」という属性の評価を抽出する。 検索支援にはWebブラウザを用いる。 また、今回は価格.comでノートPCやデジカメ等の製品を対象とし、属性ごとのP/Nをグラフにして表した。 分類器の作成にはC4.5を利用した。決定木を用いるため、属性分類において属性決定語を発見できる利点がある。

  • 1