[B! hadoop] nextbigthingのブックマーク

nextbigthing id:nextbigthing

hadoopに関するnextbigthingのブックマーク (3)

Fluentdで始めるリアルタイムでのログ有効活用
はじめに Fluentdは、ログを収集し格納するためのログ収集基盤ソフトウェアです。Fluentdにインプットされた、すべてのログをJSONに変換し、アウトプットします。インプットとアウトプットはモジュール化されており、モジュールを追加することでインプット元とアウトプット先を追加できるようになっています。 Fluentdは急速に知名度を高め、多くのWebサービス会社で実際に使用されるようになりました。従来のログが抱えていた問題も、Fluentdが適切な解決策となっていると認知され、かつ簡単に導入・スモールスタートできるミドルウェアであったことが大きかったと思います。本稿では、Fluentdの簡単な仕組みと導入方法、シンプルな動作事例について紹介します。対象読者システム管理者データサイエンティスト必要な環境 UNIX系OS Ruby 1.9 ログを出力する理由システム運用を始める
nextbigthing 2013/03/12
fluentd

MongoDB

hadoop

ログ
リンク
Hadoop MapReduceプログラムを解剖する
オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。
nextbigthing 2011/11/01
hadoop

mapreduce

勉強
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
nextbigthing 2011/08/06
テキストマイニング

自然言語処理

hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx