タグ

Hadoopに関するczblueのブックマーク (21)

  • Hadoop Conference Japan 2013 Winterのツイートまとめ

    Hadoop Conference Japan 2013 Winter(http://hcj2013w.eventbrite.com/)に関するツイートのまとめです。 午後は3トラックあるので、7階:緑、1A:薄紫、1B:青で色づけしてみました(分からないツイートも多いので、分かる方は色づけしていただけると嬉しいです)

    Hadoop Conference Japan 2013 Winterのツイートまとめ
  • 「LINE」を支えるHBaseの裏側など、Hadoop Conferenceが開催

    オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2013 Winter」が2013年1月21日、東京ビッグサイトで開催された(写真1)。スマートフォン向けコミュニケーションツール「LINE」を運営するNHN Japanの中村俊介氏が、LINEのストレージとして利用する「HBase」の運用ノウハウを語るなど、ユーザー企業やHadoop関連ベンダーによる21セッションが行われた。 Hadoop Conference Japanが開かれるのは、今回が4回目。冒頭のセッションでは、Hadoopのオリジナル開発者であるダグ・カッティング氏(Apacheソフトウエア財団会長)がビデオメッセージを寄せ、今後のHadoopの開発方針などを説明した。 Hadoopは、米グーグルが2000年代前半に論文発表した分散ファイル

    「LINE」を支えるHBaseの裏側など、Hadoop Conferenceが開催
  • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

    大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

    日々進化するHadoop。これまでのおさらいと最近の動向(前編)
  • OSSで支えられるライブドアの巨大ログ集計 #nhntech

    PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services

    OSSで支えられるライブドアの巨大ログ集計 #nhntech
  • MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena

    Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー

    MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena
  • Hadoopの異端さが面白い - wyukawa's diary

    Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH

    Hadoopの異端さが面白い - wyukawa's diary
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • 次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

    Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • Hadoopソースコードリーディングまとめ第4回 #hadoopreading .

    Hadoopソースコードリーディングのまとめです。 USTも見る事ができなかったので、自分の学習がてらまとめました。 件数が多かったので、RTのみのつぶやきや等は 独断で抽出していないものもあります。 続きを読む

    Hadoopソースコードリーディングまとめ第4回 #hadoopreading .
  • Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

    id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

    Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
  • Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 (2010/05/14 Fri)

    2010/05/14 Fri 18:00-20:00 に開催された「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会@スター研修センター御茶ノ水」<http://atnd.org/events/4136>; のハッシュタグ #hadoopmodeling タイムライン

    Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会 (2010/05/14 Fri)
  • agilecatcloud.com

    This domain may be for sale!

  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • 2010-01-20

    Hadoop定番教科書の日語訳がいよいよ出版された。基礎から応用そしてケーススタディまでHadoopについて知りたいことはすべて網羅されている。 序文 訳者まえがき はじめに 1章 Hadoop事始め 1.1 データ! 1.2 データの保管と分析 1.3 他のシステムとの比較 1.4 Hadoopの歴史 1.5 Apache Hadoopプロジェクト 2章 MapReduce 2.1 気象情報データセット 2.2 Unixのツールによるデータ分析 2.3 Hadoopによるデータの分析 2.4 スケールアウト 2.5 Hadoopストリーミング 2.6 Hadoop Pipes 3章 Hadoop分散ファイルシステム 3.1 HDFSの設計 3.2 HDFSに関する概念 3.3 コマンドラインインターフェース 3.4 Hadoopのファイルシステム群 3.5 Javaインターフェース 3

    2010-01-20
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • Hadoop World NYC 参加記 - moratorium

    Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの番自体は400~500人の参加でした。 まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基概念 ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法 パラメーター/パフォーマンスチュー

  • 高まるHadoopの導入機運、日本のHadooperが集結

    高まるHadoopの導入機運、日のHadooperが集結:Hadoop Conference 2009 Tokyo Report Hadoop Conference 2009 Tokyoに集まった日のHadooperたち。楽天が、はてなが、NTTデータが、そのほか多くの先進的な企業がこぞってHadoopを使うのはなぜなのか。Hadoopに対する各社の研究開発がつまびらかに語られた。 ニューヨークから東京へ 10月2日に米国・ニューヨークで「Hadoop World」が開催された時点で、11月には東京でも、という話が浮かび上がっていた。そのわずか2週間後、10月16日の金曜日にHadoopユーザー会からの開催通知メールが配信されると、週明け20日の朝には200名の定員が埋まってしまうという盛り上がりをみせ、日のHadooperたちが胎動していることを感じさせた。 Hadoop Conf

    高まるHadoopの導入機運、日本のHadooperが集結
  • Scala on Hadoop: Hadoop Conference - stanaka's blog

    先日、Hadoop ConferenceでScala on Hadoopというタイトルで発表してきました。スライドを以下に置いておきます。 Scala on HadoopView more presentations from Shinji Tanaka. ダイジェストとして、ScalaをHadoopで動かすための方法を書いておきます。 まず、Hadoop上でScalaを実行させるためには、JavaScalaを接続するライブラリが必要となります。ここでは、SHadoop( http://code.google.com/p/jweslley/source/browse/#svn/trunk/scala/shadoop )を使用します。SHadoopは、型変換を行うシンプルなライブラリです。 よくあるWordCountのサンプル、WordCount.scala (http://blog.jo

    Scala on Hadoop: Hadoop Conference - stanaka's blog