yukimori_726のブックマーク - はてなブックマーク

テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去
pythonを使ったテキストマイニングの前処理メモ。名詞を抽出し、ストップワードや珍しい単語を除去する方法。名詞を抽出し、ストップワードや珍しい単語を除去するテキストマイニングにおける定番の前処理らしいです。pythonで試してみました。もっと膨大な文章集合を実践的に扱う場合は、「10%以上の文章にでてきた単語を除去」とかもやるみたいです。正解があるわけではなく、扱うデータと目的に合わせて適宜変えるとよいと思います。 #coding:utf-8 import MeCab def extractKeyword(text): u"""textを形態素解析して、名詞のみのリストを返す""" tagger = MeCab.Tagger() encoded_text = text.encode('utf-8') node = tagger.parseToNode(encoded_text).n
yukimori_726 2016/04/06
text

jubatus

nlp

stopword
リンク
fluentdの簡単な使い方、設定方法一覧
fluentdはログの転送・集約を簡単に行うためのツール fluentd ログの転送・集約を行うためのツール。複数台のサーバーを運用している時にそれぞれのサーバーにたまるログを、簡単な記述で特定の場所に集約できる。今までは同じことをどうやって実現していたの？バッチでコピーしたり、似たようなことをやるScribeというツールを使っていた。この方法だと、設定が複雑になりがちだし、バッチだとリアルタイムに処理することができなかった。 fluentdの利点は？設定が簡単、かつリアルタイムに処理できること。fluentdを使うとバッチではなくリアルタイムなストリーミング処理ができる。 fluentとfluentdのどっちの読み方が正しいの？一応、fluentdが正しいっぽいです。 fluentdのインストール方法簡単なのは、GemやRPMを使ったインストール。yumでのインストールも自分で
yukimori_726 2016/03/18
fluentd

install
リンク
1

はてなブックマーク

タグ

ブックマーク / hivecolor.com (2)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / hivecolor.com (2)

テキストマイニングの前処理。名詞抽出、ストップワード除去、珍しい単語の除去

fluentdの簡単な使い方、設定方法一覧

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス