タグ

ブックマーク / hivecolor.com (2)

  • テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去

    pythonを使ったテキストマイニングの前処理メモ。名詞を抽出し、ストップワードや珍しい単語を除去する方法。 名詞を抽出し、ストップワードや珍しい単語を除去する テキストマイニングにおける定番の前処理らしいです。pythonで試してみました。 もっと膨大な文章集合を実践的に扱う場合は、「10%以上の文章にでてきた単語を除去」とかもやるみたいです。正解があるわけではなく、扱うデータと目的に合わせて適宜変えるとよいと思います。 #coding:utf-8 import MeCab def extractKeyword(text): u"""textを形態素解析して、名詞のみのリストを返す""" tagger = MeCab.Tagger() encoded_text = text.encode('utf-8') node = tagger.parseToNode(encoded_text).n

  • fluentdの簡単な使い方、設定方法一覧

    fluentdはログの転送・集約を簡単に行うためのツール fluentd ログの転送・集約を行うためのツール。複数台のサーバーを運用している時にそれぞれのサーバーにたまるログを、簡単な記述で特定の場所に集約できる。 今までは同じことをどうやって実現していたの? バッチでコピーしたり、似たようなことをやるScribeというツールを使っていた。この方法だと、設定が複雑になりがちだし、バッチだとリアルタイムに処理することができなかった。 fluentdの利点は? 設定が簡単、かつリアルタイムに処理できること。fluentdを使うとバッチではなくリアルタイムなストリーミング処理ができる。 fluentとfluentdのどっちの読み方が正しいの? 一応、fluentdが正しいっぽいです。 fluentdのインストール方法 簡単なのは、GemやRPMを使ったインストール。yumでのインストールも自分で

  • 1