タグ

ブックマーク / ailaby.com (1)

  • gensim の Phrases の使い方。頻出する単語ペアを検出-python | コード7区

    Phrases とは そもそも何をするものかというと、文書を読み込み、前後する単語のペア(つまり、バイグラム)の出現頻度をカウント、頻度が高いペアは単一のフレーズとみなして1つの単語にまとめて文書変換してくれます。 たとえば、「機械学習」 を MeCab かなにかで分かち書きすると 、辞書登録されていない環境では「機械」と 「学習」の2つに分解されます。でも、実際には1つの単語として扱いたいはずです。 Phrases は、頻出する単語のペアを文書から読み取り、「_」でつないで一単語にしてくれます。 同一文書を何度も変換することで トリグラム や 4-グラム も扱え、もちろんそれ以上 10-グラム や 100-グラム も可能です。 仕組み Phrases は 「学習」 と 「変換」 の 2 段階にわかれます。 学習 文書を読み込み、単語の出現頻度を調べます。その際、前後する単語の対(バイグラ

    gensim の Phrases の使い方。頻出する単語ペアを検出-python | コード7区
  • 1