タグ

hadoopに関するmuto_masaのブックマーク (9)

  • Hadoop運用管理の今

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    Hadoop運用管理の今
  • 3Dクラスタ監視ツール

    最近クラスタの負荷状況を3Dで表示するようなツールを作ってます。 クラスタ監視ツールって既存のものもあるのに、なぜ今更?と思うかもしれませんが、 既存のもので足りないと思っているのは、 1. 十数台くらいまでなら良いがそれ以上になるとグラフを見るのがつらい 2. CPU毎、ディスク毎に見れない 自分の目的としては数百台とかの規模でHadoopを実行し、負荷状況を見れること、 後からも実行時の状況を調べてボトルネック等を分析出来るようにすることです。 そこでこんな感じのものを作りました。 構成はこんな感じです。使用技術は、 fluentd + node.js + websocket + webgl (Three.js) といった感じでかなり流行りの技術を使ってる感じです。 各サーバーの負荷状況をfluentdで集めています。自作プラグインfluent-plugin-statでC

    muto_masa
    muto_masa 2012/10/04
    fluentd + node.js + websocket + webgl (Three.js) でやっているとか凄い人がいる。
  • Flume ユーザーガイド

    Flume のアーキテクチャは、シンプルながらも堅牢で柔軟性があります。Flume の中核をなす抽象化は、ストリーム指向の データフロー です。データフローは、1 つのデータストリームが、その生成元から最終的な宛先まで、どのように転送され、加工されるかを表すものです。データフローは、いくつかの 論理ノード から構成されており、論理ノードは、受け取ったイベントを加工したり、集約したりすることができます。これらの論理ノードがチェインのようにつながって、データフローを形成します。これらの論理ノードのつながり方のことを、論理ノードの 構成 といいます。 これらすべてを管理するのが Flume マスター です。Flume マスターは、Flume のすべての物理ノードと論理ノードに関する情報を把握している独立したサービスです。マスターは論理ノードに構成を割り当て、ユーザーが行った構成の更新をすべての論

    muto_masa
    muto_masa 2012/10/03
    よくわからないので読んでる。
  • Monitor HBase & Hadoop with Ganglia on EC2

    Thoughts on software, gardening, jazz, LA transit, cycling, and urban planning This post is a recipe on setting up Ganglia to monitor an HBase and Hadoop cluster on the Ubuntu OS on Amazon EC2. Ganglia is a monitoring system for grids and clusters consisting of the following 3 components: gmond A Ganglia Monitoring Daemon (gmond) runs on each node in the cluster and collects statistics from the no

    Monitor HBase & Hadoop with Ganglia on EC2
    muto_masa
    muto_masa 2012/09/08
    Ganglia懐かしい
  • http://blog.suz-lab.com/2010/01/machadoopmap-reduce.html

  • Cloudera Blog

    We are excited to announce the acquisition of Octopai, a leading data lineage and catalog platform that provides data discovery and governance for enterprises to enhance their data-driven decision making. Cloudera’s mission since its inception has been to empower organizations to transform all their data to deliver trusted, valuable, and predictive insights. With AI and […] Read blog post

    Cloudera Blog
    muto_masa
    muto_masa 2011/09/30
    アイコンがかわいい。
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    muto_masa
    muto_masa 2011/08/15
    音声解析で活かせないかな〜
  • 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp

    はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!はてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景 筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

    第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp
  • 第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)

    「Hadoop」は、米Google社が考案した分散データ処理技術MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。 今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa

    第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)
  • 1