[B! 自然言語処理] hate-urumaのブックマーク

hate-uruma id:hate-uruma

自然言語処理に関するhate-urumaのブックマーク (2)

TF-IDFで文書内の単語の重み付け
『いくつかの文書があったとき、それぞれの文書を特徴付ける単語はどれだろう？』こんなときに使われるのがTF-IDFという値。 TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表します。たくさん出てくる単語ほど重要！ $\textrm{tf}(t,d)$ 文書 $d$ 内のある単語 $t$ のTF値 $n_{t,d}$ ある単語 $t$ の文書 $d$ 内での出現回数 $\sum_{s \in d} n_{s,d}$ 文書$d$内のすべての単語の出現回数の和 IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表します。いくつもの文書で横断的に使われている単語はそんなに重要じゃない！ $\textrm{idf}(t)$ ある単語 $t$ のIDF値 $N$ 全文書数 $\textrm{df}(t)$
hate-uruma 2020/10/29
tf-idf

自然言語処理
リンク
nlp1-11.key
1 11. テキスト処理 (コーパスの処理) 自然言語処理論 I 2 例文集実際に使用されている例文を大量に集めたものテキストコーパス文章を集めたもの新聞記事、雑誌、小説、辞書など音声コーパス音声データを集めたもの対話、インタビュー、講演などコーパス(corpus)とは? 3 昔機械可読データを集めること自体が困難コーパスの量が重視された今電子化文書の普及新聞記事、レポート、ウェブ文書、blog コーパスにどのような付加的な情報をつけるかということに重点が置かれている注釈付きコーパス(annotated corpus) 量から質へ 4 コーパスに情報を付加したコーパス主なもの (平文コーパス) 品詞タグ付きコーパス単語の品詞単語境界構文構造付きコーパス文の構文木文節の係り受け関係注釈付きコーパス 5 主なもの語義タグ付きコーパス単語の語義パ
hate-uruma 2020/02/07
コーパス

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx