[B! hadoop] muto_masaのブックマーク

Hadoop運用管理の今

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

muto_masa 2013/07/23

リンク

最近クラスタの負荷状況を3Dで表示するようなツールを作ってます。クラスタ監視ツールって既存のものもあるのに、なぜ今更？と思うかもしれませんが、既存のもので足りないと思っているのは、 1. 十数台くらいまでなら良いがそれ以上になるとグラフを見るのがつらい 2. CPU毎、ディスク毎に見れない自分の目的としては数百台とかの規模でHadoopを実行し、負荷状況を見れること、後からも実行時の状況を調べてボトルネック等を分析出来るようにすることです。そこでこんな感じのものを作りました。構成はこんな感じです。使用技術は、 fluentd + node.js + websocket + webgl (Three.js) といった感じでかなり流行りの技術を使ってる感じです。各サーバーの負荷状況をfluentdで集めています。自作プラグインfluent-plugin-statでC

muto_masa 2012/10/04

fluentd + node.js + websocket + webgl (Three.js) でやっているとか凄い人がいる。

リンク

Flume ユーザーガイド

Flume のアーキテクチャは、シンプルながらも堅牢で柔軟性があります。Flume の中核をなす抽象化は、ストリーム指向のデータフローです。データフローは、1 つのデータストリームが、その生成元から最終的な宛先まで、どのように転送され、加工されるかを表すものです。データフローは、いくつかの論理ノードから構成されており、論理ノードは、受け取ったイベントを加工したり、集約したりすることができます。これらの論理ノードがチェインのようにつながって、データフローを形成します。これらの論理ノードのつながり方のことを、論理ノードの構成といいます。これらすべてを管理するのが Flume マスターです。Flume マスターは、Flume のすべての物理ノードと論理ノードに関する情報を把握している独立したサービスです。マスターは論理ノードに構成を割り当て、ユーザーが行った構成の更新をすべての論

muto_masa 2012/10/03

よくわからないので読んでる。

hadoop

リンク

Monitor HBase & Hadoop with Ganglia on EC2

Thoughts on software, gardening, jazz, LA transit, cycling, and urban planning This post is a recipe on setting up Ganglia to monitor an HBase and Hadoop cluster on the Ubuntu OS on Amazon EC2. Ganglia is a monitoring system for grids and clusters consisting of the following 3 components: gmond A Ganglia Monitoring Daemon (gmond) runs on each node in the cluster and collects statistics from the no

muto_masa 2012/09/08

Ganglia懐かしい

リンク

http://blog.suz-lab.com/2010/01/machadoopmap-reduce.html

muto_masa 2012/09/08

リンク

Cloudera Blog

We are excited to announce the acquisition of Octop ai, a leading data lineage and catalog platform that provides data discovery and governance for enterprises to enhance their data-driven decision making. Cloudera’s mission since its inception has been to empower organizations to transf orm all their data to deliver trusted, valuable, and predictive insights. With AI and […] Read blog post

muto_masa 2011/09/30

アイコンがかわいい。

リンク

いまさら聞けないHadoopとテキストマイニング入門

ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1

muto_masa 2011/08/15

音声解析で活かせないかな〜

リンク

第28回　RubyとHadoopで分散処理　Hadoop Streamingの仕組み | gihyo.jp

はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!やはてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

muto_masa 2011/07/15

hadoop
ruby

リンク

第14回大規模データの新たな価値を生み出す「Hadoop」（解説編）

「Hadoop」は、米Google社が考案した分散データ処理技術「MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa

muto_masa 2011/05/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

hadoopに関するmuto_masaのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス