タグ

hadoopに関するkuni92のブックマーク (21)

  • インフラエンジニアのためのHadoop情報 Gangliaその1:So-net Developer Blog:So-netブログ

    これまではHadoopの死活監視が目的のNagios設定を見てきましたが、HadoopはJMX を通してメモリ使用状況、ジョブ(MapReduce)の進行状況を詳細に見ることができます。 このJMXの値を、Gangliaというグラフ表示の監視ツールを使って可視化しましょう。 ジョブの投入状況に合わせて、メモリやCPUの利用率が各ノード毎にグラフ化されて 見えるので、ボトルネックの発見に役立つはずです。 Gangliaのインストールは終わっているものとして・・・としたいところですが Nagiosと違って、Hadoopの各ノード側全てにインストールしなければいけないので ちょっと面倒。 rpmパッケージを作って、各ノードに配布しちゃいましょう。 まずは、Ganglia監視サーバ側を作成。 rpm化にはcheckinstallを使います。あらかじめインストールしておきます。 ビルドに必要なものを

  • インフラエンジニアのためのHadoop情報 状態監視その1:So-net Developer Blog:So-netブログ

    Hadoopを運用するノードもそれなりの台数になってくると、ノードの稼動状態を監視する 必要が出てきます。10台以上にもなるとそれぞれにログインしてプロセスを確認するのも かなり面倒です。 ここでは、監視ツールとしてポピュラーな「Nagios」を使って、Hadoopノードを監視する 方法について書いておきます。 使うのは「check_http」コマンドです。このコマンドは、指定ポートに接続してhttpを getして、得られるレスポンス文字列を調べて状態を判定します。 これを使ってHadoopの各サービスの状態を見てみましょう。 NameNode用のWebUI(http://[NameNodeのIP]:50070/dfshealth.jsp)には、レスポンス中に 「NameNode」の文字列が入っています。 この文字列を取得できたら、少なくともNameNodeは止まってはいないと判断できます

  • インフラエンジニアのためのHadoop情報 障害復旧その1:So-net Developer Blog:So-netブログ

    Hadoopの障害の中でも、あらかじめ復旧手順を確認しておかなければいけないとすれば、 やはりNameNodeでしょう。 PrimaryNameNodeが停止するとHadoopクラスタは利用できなくなります。 fsコマンドでエラーが返ってくるようなら、NameNodeに問題が発生している場合があります。 NameNodeの障害を放置しておくと、HDFS上のデータが破損してしまう恐れがあるので、異常を 見つけたら速やかに復旧しましょう。 以下の例は、PrimaryNameNodeが停止した場合のエラーです。 $ hadoop fs -ls 10/07/06 18:18:06 INFO ipc.Client: Retrying connect to server: srv1/192.168.1.1:8020. Already tried 0 time(s). 10/07/06 18:18:07

  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 『Hadoop/Hiveを用いたログ解析基盤の構築』

    こんにちは。Amebaのログ解析基盤を担当しているICHIROです。 今回は構築・運用中のログ解析基盤「Patriot」について書きたいと思います。 Webサービスを運営していると日々大量のログデータやユーザデータが蓄積されます。 今まではPV(ページビュー)やUU(ユニークユーザ)などアクセスログなどから取れる、大枠の指標のみを見ることがほとんどでした。 ページビューに合わせてシステムを増強するなど、システム側としては十分とも言える指標ですが、広告や課金サービスという視点から見ると十分とは言えません。 今まではAmeba内の個々のサービス担当者が必要とする指標を出すためにアプリエンジニアDBエンジニアに都度依頼をする形でデータを抽出していました。 今後の課金サービスの発展が見込まれ、よりデータ分析の重要性が高まると考えた私は、エンジニアでないサービス担当者(主にプロデューサ)がより簡単

    『Hadoop/Hiveを用いたログ解析基盤の構築』
    kuni92
    kuni92 2010/09/24
    log解析
  • 大規模なデータセットを効率的に扱うための Pig 超入門 - (゚∀゚)o彡 sasata299's blog

    2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は TwitterYahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

  • Hadoopでスパム対策も 「クラウドで守る」「クラウドを守る」 − @IT

    米国発セキュリティトレンドレポート Hadoopでスパム対策も 「クラウドで守る」「クラウドを守る」 高橋 睦美 @IT編集部 2010/5/11 クラウドというインフラを活用してどうセキュリティを高めるか。そして、クラウドコンピューティング環境のセキュリティをどのように確保するか。RSA Conference 2010の会場からその解を探る(編集部) 米国サンフランシスコで3月初めに行われた「RSA Conference 2010」における最大のキーワードは「クラウドのセキュリティ」だった。企業におけるクラウドコンピューティングの利用が格化してきたことを受け、具体的な課題に踏み込んできたという印象だ。 切り口は大きく2つに分けられる。1つは、クラウドというインフラを活用してどのようにセキュリティを高めるかというもの。そしてもう1つは、クラウドコンピューティング環境においてセキュリティ

  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • 高まるHadoopの導入機運、日本のHadooperが集結

    高まるHadoopの導入機運、日のHadooperが集結:Hadoop Conference 2009 Tokyo Report Hadoop Conference 2009 Tokyoに集まった日のHadooperたち。楽天が、はてなが、NTTデータが、そのほか多くの先進的な企業がこぞってHadoopを使うのはなぜなのか。Hadoopに対する各社の研究開発がつまびらかに語られた。 ニューヨークから東京へ 10月2日に米国・ニューヨークで「Hadoop World」が開催された時点で、11月には東京でも、という話が浮かび上がっていた。そのわずか2週間後、10月16日の金曜日にHadoopユーザー会からの開催通知メールが配信されると、週明け20日の朝には200名の定員が埋まってしまうという盛り上がりをみせ、日のHadooperたちが胎動していることを感じさせた。 Hadoop Conf

    高まるHadoopの導入機運、日本のHadooperが集結
  • 分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる

    オープンソースの分散処理ソフトウエア「Hadoop」の日におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天はてななどが講演した。 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツ

    分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる
  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
  • Hadoop World NYC 参加記 - moratorium

    Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの番自体は400~500人の参加でした。 まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基概念 ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法 パラメーター/パフォーマンスチュー

  • クックパッドとHadoop - クックパッド開発者ブログ

    はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

    クックパッドとHadoop - クックパッド開発者ブログ
  • Hadoop / MapReduce:日本語の技術資料へのリンク集 - Muranaga's View

    プリファード インフラストラクチャ CTO 太田一樹氏によって CodeZine に寄せられた Hadoop の解説、ガリレオ 小山博史氏によって @IT に寄せられた MapReduce の解説など、Hadoop と MapReduce に関する日語の技術資料へのリンクを集めてみた。 CodeZine の Hadoop 解説記事(太田一樹氏): 「Hadoop、hBaseで構築する大規模分散データ処理システム」 「Hadoopのインストールとサンプルプログラムの実行」 「複数マシンへHadoopをインストールする」 「blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術」(大倉 務 氏 --- 現 Google エンジニア) Hadoop の技術解析資料(NTT レゾナント、プリファード インフラストラクチャ) Amazon Elastic MapReduce

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • GREE Labs 第16回 オープンソーステクノロジー勉強会 にいって来ました - d.hatena.zeg.la

    http://labs.gree.jp/Top/Study/20081125.htmlにいってきました メモ書きです、ほとんど資料の板書に近いです。。。 Hadoopの概要と最新の動向 自己紹介 太田一樹さん http://kzk9.net PFI http://prferred.jp Sedueの開発 はてぶ検索 Hadoop概要 Googe基盤のclone GoogleFS MapReduce Yahoo Research Doug Cutting が丸ぱくりで実装 Hadoop、hBaseで構築する大規模分散データ処理システム http://preferred.jp/pub/hadoop.html NTTレゾナントと共同調査 MapReduceとは 大規模データを集める 200億Page 400TB 大量のマシン プロセス起動,監視,通信,debug,最適化 MPI 並列プログラミン

    GREE Labs 第16回 オープンソーステクノロジー勉強会 にいって来ました - d.hatena.zeg.la
  • Hadoopを用いたクラスタコンピューティング環境の構築 - SourceForge.JP Magazine : オープンソースの話題満載

    ペタバイト規模のデータを格納させる分散コンピューティング用プラットフォームを探しているのであれば、そのフレームワークとして Hadoop の使用を検討すべきだろう。HadoopはJavaベースで作成されているため、LinuxWindows、Solaris、BSD、Mac OS Xにて使用できる。こうしたHadoopを実際に採用している組織に共通するのは、安価(特殊なハードウェアが不要)かつ効率的でスケーラビリティと信頼性を兼ね備えたプラットフォームによる、膨大な量のデータ処理を必要としているという点だ。 Hadoopでは、こうした膨大な量のデータを格納するために、Hadoop Distributed File System(HDFS)を採用している。実際、HDFSのマスタ/スレーブアーキテクチャは、Hadoopのクラスタ機能の中核を成している。ここでサポートされているのは、ファイルシステ

    Hadoopを用いたクラスタコンピューティング環境の構築 - SourceForge.JP Magazine : オープンソースの話題満載
  • Hadoopの解析資料

    オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする