タグ

自然言語処理に関するhate-urumaのブックマーク (2)

  • TF-IDFで文書内の単語の重み付け

    『いくつかの文書があったとき、それぞれの文書を特徴付ける単語はどれだろう?』こんなときに使われるのがTF-IDFという値。 TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表します。たくさん出てくる単語ほど重要! $\textrm{tf}(t,d)$ 文書 $d$ 内のある単語 $t$ のTF値 $n_{t,d}$ ある単語 $t$ の文書 $d$ 内での出現回数 $\sum_{s \in d} n_{s,d}$ 文書$d$内のすべての単語の出現回数の和 IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表します。いくつもの文書で横断的に使われている単語はそんなに重要じゃない! $\textrm{idf}(t)$ ある単語 $t$ のIDF値 $N$ 全文書数 $\textrm{df}(t)$

    TF-IDFで文書内の単語の重み付け
  • nlp1-11.key

    1 11. テキスト処理 (コーパスの処理) 自然言語処理論 I 2 例文集 実際に使用されている例文を大量に集めたもの テキストコーパス 文章を集めたもの 新聞記事、雑誌、小説、辞書など 音声コーパス 音声データを集めたもの 対話、インタビュー、講演など コーパス(corpus)とは? 3 昔 機械可読データを集めること自体が困難 コーパスの量が重視された 今 電子化文書の普及 新聞記事、レポート、ウェブ文書、blog コーパスにどのような付加的な情報をつけるかと いうことに重点が置かれている 注釈付きコーパス(annotated corpus) 量から質へ 4 コーパスに情報を付加したコーパス 主なもの (平文コーパス) 品詞タグ付きコーパス 単語の品詞 単語境界 構文構造付きコーパス 文の構文木 文節の係り受け関係 注釈付きコーパス 5 主なもの 語義タグ付きコーパス 単語の語義 パ

  • 1