タグ

ブックマーク / ldl.ic.kanagawa-it.ac.jp (1)

  • 単語の出現頻度を求める --- 興味語の抽出は簡単じゃありませんよ ---

    語文章から、単語の出現数を数えるためには、文章から単語を抽出しなくてはいけません。すなわち分かち書き(単語の間に空白などを入れる)しないといけません。 来ならば、分かち書きは大変な作業ですが、MeCab (和布蕪)やChasen(茶筌)などといった形態素解析ソフトがありますので、これの出力を使うと簡単です。形態素解析(ソフト)は、入力文を単語単位に分割し、かつその品詞を与えてくれます。 PerlRubyなどのスクリプト言語のモジュールとして、提供されていることもあります。ですが、たいていの場合そのようなモジュールを使わなくても、簡潔さを損なうことなく記述することができます。(*1) (*1) 格的に解析している人は除きます。多くの人が「分かち書き+品詞を知りたいくらい」だろうと想定しています。 まず分かち書き まず、日語文章を分かち書き形式に変換しないといけません。分かち書きす

  • 1