タグ

algorithmとtext-miningに関するnabinnoのブックマーク (2)

  • tf–idf - Wikipedia

    In information retrieval, tf–idf (term frequency–inverse document frequency, TF*IDF, TFIDF, TF–IDF, or Tf–idf) is a measure of importance of a word to a document in a collection or corpus, adjusted for the fact that some words appear more frequently in general.[1] Like the bag-of-words model, it models a document as a multiset of words, without word order. It is a refinement over the simple bag-of

  • 形態素解析 - Wikipedia

    形態素解析(けいたいそかいせき、(英: morphological analysis)は自然言語の文字列を意味に基づく最小単位へ分割しその品詞を特定する処理である[1]。 形態素解析とは、対象言語の文法や単語の品詞等の情報[注 1]にもとづき、文法的な情報の注記の無い自然言語のテキストデータ(文)を単語の列に分割し、各単語の品詞や活用などを判別することで形態素(おおまかにいえば、言語で意味を持つ最小単位)の列を得る作業である[1]。 自然言語処理の分野における主要なテーマのひとつであり、機械翻訳やかな漢字変換など応用も多い(もちろん、かな漢字変換の場合は入力が通常の文と異なり全てひらがなであり、その先に続く文章もその時点では存在しないなどの理由で、内容は機械翻訳の場合とは異なったものになる)。 もっぱら言語学的な観点を主として言語学で研究されている文法にもとづく解析もあれば、コンピュータ上

    形態素解析 - Wikipedia
  • 1