第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日本Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano
本連載では、オープンソースの大規模分散処理基盤「Hadoop」を利用している技術者向けに、数回にわたりHadoop運用の最新情報やノウハウ、活用の勘所を紹介する。 HadoopやHadoop周辺ツールは、現在も活発に開発が進んでおり、安定化に加えて高機能・多機能化も図られ、適応領域が広がりつつある。それだけにHadoopユーザーは周辺ツールや利用動向について、常にアンテナを張っておくべきであろう。 そこで、今回は2012年6月13日と14日の2日間、米国カリフォルニア州サンノゼにて開催された、Hadoop Summit2012の模様を要約して紹介する。 米ヤフー!と、米ホートンワークス(米ヤフー!のHadoop専門チームがスピンアウトしたHadoop専業ベンチャー企業。2011年6月設立)が共催する同イベントは、今回で5回目の開催となる。 2008年の第1回開催時は200人だった参加者が今
勤務先が主催でNHNテクノロジーカンファレンスという技術者向けイベントをやってるんだけど、その登壇者として社外の誰かから推薦されたらしいので(何故……)、ひとセッションしゃべってきた。なお「HBase at LINE」の発表は「HBaseについて誰かいない?」と主催の伊勢さんに聞かれたのに自分が推薦しました。みんなありがたがるといいよ。 他の人の話も、懇親会でのあれやこれやも大変楽しかった。HBaseなー、火山かー、みたいな。そのうち techblog にまとめエントリが上がるんじゃないでしょうか。それまでこっちでも見ると当日の状況が多少なりわかるかもしれません。 第2回NHNテクノロジーカンファレンス #nhntech まとめ - Togetterまとめ で、自分がしゃべったときのスライドはこちら。(slideshareのembed用タグを埋めてもはてなダイアリーに弾かれてしまう…… 対
こんにちは.最近ピクルス作りで精神統一をしている,たんぽぽグループ解析チームの石川有です. このブログではお馴染みのたんぽぽグループですが,"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています.その中で解析チームは,データ解析基盤の構築,データマイニング,データ解析の社内コンサルティングを行ない技術からの改善を担当しています. 今回の記事では,mixi における解析基盤について簡単に触れたあと,その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの2点について書きます. mixi の解析基盤 まずは解析環境について,簡単にお話します.2012-08 現在 mixi では,主な解析用のツールとしては,Apache Hadoop, Hive を利用しています.またあわせて,自分など一部の人は,
Hadoopクラスタを運用する際に ulimit で nofile (プロセスがopenできるファイルディスクリプタ数の上限)の設定を変更しておくべき*1というのはもはや常識的なお話ですが、そこには実は罠がある。たぶんRHELのデフォルト通りならハマらないんだろうけど、手を入れている環境だとハマる。ので、その話。 要するにハマった。のを解決したよ多分! まだ最終的な確認できてないけど! 各書籍での解説 とりあえず、国内で売られているHadoop関連書籍の記述を確認しておこう。まずHadoop徹底入門。 ファイディスクリプタの設定は、/etc/security/limits.conf に記述します。エディタを利用して、limits.conf に以下のように記述します。ここでは、Hadoopの各種ノードを起動するユーザーを hadoop とします[12]。 hadoop soft nofile
前編の「開発者編」では、Apache Hadoop(以降Hadoop)の歴史と概要に加え、開発者に必要な知識を客観的に証明できる認定資格、CCDH(Cloudera Certified Developer for Apache Hadoop)を紹介しました。後編では、Hadoopの管理者に求められる知識に加え、Hadoopの管理者向け認定資格、また最近のHadoop関連の話題とカラム指向分散データベースであるApache HBaseの紹介、およびHBaseの認定資格を紹介します。 Hadoopの管理者に求められるもの 前編で紹介したように、Hadoopでは一台から数千台規模のクラスタを構築することが可能であり、必要に応じてスケールアウトさせることができます。Hadoopは非常に強力ですが、管理するのはそれほど簡単ではありません。言い換えると、正しい知識を持たずに運用すると、大きなトラブルが
(※ 2012.7.27追記 : 講演5を追加しました) NHN技術部会、株式会社データホテルの伊勢幸一です。 おまたせいたしました。 お約束通り、来る8月18日(土)、第2回NHNテクノロジーカンファレンスを開催します! 今回のテーマはこちら! 「H (エッチ)」 もともと本当は第2回テーマとして今流行のHTML5大特集を予定していたのですが、前回のカンファレンスでスピーカーをして頂いたGREEの藤本さんから、 「LINEで使っているHBaseの話を聞きたい」 という余計な突っ込みというか、プレッシャーを与えられまして、思わず、 「じ ・・・・ 次回に ・・・・」 と言ってしまい(やっべー!次回はHTML5で行く予定だったんだけど)、HTML5とHBaseじゃ全くカテゴリーが違うし関連性も無いのでどうするか、何か共通性が無いか?と、悩んでおりましたところ、 「あれ?両方とも頭文字が「H」
CDH4説明会に行って参りました。 日時:2012年7月6日(金) 場所:ベルサール八重洲 タイトル: 進化するHadoop:CDH4とCloudera Enterprise4.0のご紹介 アジェンダは以下の通り。 18:30 開場 19:00 開会のご挨拶(ジュゼッペ小林さん) 19:10 CDH4とCloudera Enterprise4.0(川崎さん) 〜エンタープライズにおけるHadoopの標準〜 19:50 CDH4はなぜエンタープライズに適しているのか(嶋内さん) 〜新しく導入された技術から読み解く〜 20:30 懇親会 21:00 閉会 以下、内容と感想をまとめておきます。スライドはあとで上がるそうなので、セミナーの詳細はそちらを参考にした方がよろしいかと。 あとはメモも上げられているので、こちらを見ると詳細がわかるかと。 http://d.hatena.ne.jp/gara
ツイートSource: cloudera.com via garage-kid on Pinterest Clouderaトレーニングコース受講者向けCDH4説明会にお呼ばれしたので、行って参りました。 今日はそのときわたしがとったメモを公開しようと思います。 〜Clouderaトレーニングコース受講者様向けCDH4説明会 概要〜 ▼ 日時:2012年7月6日(金) ▼ 会場:ベルサール八重洲 3階ルーム4 (http://www.bellesalle.co.jp/bs_yaesu/access.html) ▼ タイトル: 進化するHadoop:CDH4とCloudera Enterprise4.0のご紹介 Cloudera のトレーニングを受けた人に対するインセンティブのようなものとして開催された催しでした。 雨の中にも関わらず、50名近い参加者があったことは正直にすごいな、とわたしは思
Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。 徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.reco
OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。(NTTコムウェア 研究開発部 川前 徳章) クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
2012年はクラウドの「ビッグデータ」元年といわれており、米Amazon.com、米Google、米Heroku(米Salesforce.com)、米IBM、米Microsoftなどの大手PaaS(Platform as a Service)プレーヤーに注目が集まっている。では、パブリッククラウドでApache Hadoopのインプリメンテーションを最も包括的な形で提供しているのはどのベンダーだろうか。 Apache HadoopはHDFS、MapReduce、Hive、Pigなどのサブコンポーネントとともにビッグデータ分析の主流技術になりつつある。その背景には、エンタープライズデータウェアハウジングにPaaS型クラウドモデルを採用する企業が増えていることがある。Apache Software Foundationは、Hadoopが成熟し、業務用分析クラウド環境として活用できるようになった
必要な環境 Windows、Macなどインターネットが利用可能なOS環境 クラウドでHadoopを使うメリット 昨今ビッグデータ格納の基盤としてHadoopを使う事例が増えてきています。大規模なストレージを必要とせずにビッグデータを扱える環境は非常に魅力的です。 HadoopはGoogleの検索エンジンの基盤として開発されたGoogle File SystemおよびMapReduceの技術仕様を元に開発されたオープンソースソフトウェアです。ファイルを複数のサーバに冗長化した上で分散配置するHDFS(Hadoop Distributed File System)と、分散配置されている大量データから必要なデータの抽出や分解を行うHadoop MapReduceにより構成されています。 現在、Hadoopはクレジットカード会社の売上データの解析や、国立国会図書館が提供している検索サービスのインデ
深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。 「初めてのHadoop」ちょっと考えてたが、例えば最初に考えるべきHDFSのblock sizeとかで、でもそれノード数とMR処理データ量の最大/平均サイズと、データ投入時の圧縮、そういうことをちゃんと考えないと決まらないんだよね、そういうことを書いてる本がないよね、みたいな 2012-05-08 01:13:11 via TweetDeck 設計 HDFS総容量と処理対象のデータ量について ファイルの形式について (TextFile/SequenceFile/RCFile) データの圧縮について ノードあたりのHDD台数、ディスクの選択 CPUおよびメモリの選択 ノード数 H
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く