ブックマーク / boomin.yokohama (1)

  • 【ソースコード付き】日本語テキストマイニングを行うために必要な前処理 | ITに頼って生きていく

    はじめに日語のテキストマイニングを粉うには、いろいろと前処理が必要となります。 日語じゃなくても必要なのですが、特に日語の場合、文章内で単語が分かれていないために、 単語ごとに分解する「分かち書き」が必要となります。 これは、全世界リアルタイム麺活監視システムで表示される、監視上法の1つです。 世界の麺活erたちがtwitterでつぶやいた単語を分かち書きして、単語に分解したあと、 よく使われる単語をより大きく表示させる、タグクラウド と呼ばれる可視化手法の一つです。 こうすることで、よく使用される単語や、関連する単語を浮かび上がらせることができます。 しかし、そもそも分かち書きするためには、辞書をもとに品詞分解しないといけないため、 それをそれなりの精度と速度で実行するためには、ライブラリに頼らざるを得ません。 そこで今回、ライブラリの一つであるMecabを使って、うまいこと前処理

  • 1