タグ

hdfsに関するy-kobayashiのブックマーク (8)

  • Facebook: ペタバイトのデータに対応した分散クエリエンジンをオープンソースで提供 - ワザノバ | wazanova.jp

    https://www.facebook.com/notes/facebook-engineering/presto-interacting-with-petabytes-of-data-at-facebook/10151786197628920 Facebookがエンジニアブログで、ペタバイト級のデータを効率よくクエリするエンジンPrestoを紹介しています。 1) Background Facebookは世界有数の300ペタバイトのデータウェアハウスをもち、そのデータはバッチ処理、ソーシャルグラフ分析、機械学習、リアルタイムインタラクティブ分析など様々な用途に使われている。 そのデータは、いくつかの大きなHadoop/HDFSベースのクラスターにある。Hadoop/MapReduce/Hiveは、大規模で信頼性の高い計算処理、全体システムスループット最適化という特性がある。しかし、ペタ

  • Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると

    Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl

    Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
  • Cloudera | ハイブリッドデータカンパニー

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera | ハイブリッドデータカンパニー
  • Understanding Hadoop Clusters and the Network

    This article is Part 1 in series that will take a closer look at the architecture and methods of a Hadoop cluster, and how it relates to the network and server infrastructure. The content presented here is largely based on academic work and conversations I’ve had with customers running real production clusters. If you run production Hadoop clusters in your data center, I’m hoping you’ll provide yo

  • [第6回]クラスターのアーキテクチャー HDFS編

    第3回でディストリビューションとディトリビューターや製品ベンダーを詳しく説明しましたが、その後2012年6月に様々なベンダーからApache Hadoop関連製品が新たにリリースされています。 米クラウデラは2012年6月5日(現地時間)、Apache Hadoopバージョン2をサポートしたCDH 4.0.0をリリースしました。 同じくHadoopのディストリビューターである米ホートンワークスも2012年6月12日(現地時間)、Apache HadoopのディストリビューションHortonworks Data Platform (HDP) 1.0を、Apache Hadoop 1.0.3ベースでリリースしました。このディストリビューションには管理とモニタリングサービスを提供するコンポーネント、Apache AmbariベースのHortonworks Management Center (H

    [第6回]クラスターのアーキテクチャー HDFS編
  • HDFSはファイルサーバーに使うものじゃないよ

    Hadoop(0.22以前や1.0.0)のHDFSはNameNodeがSPOF(単一障害点)なので、ファイルサーバーやデータの“バックアップ”には向かないという話です。 HDFS上に構築されているHBaseの場合、(HBase自身にはSPOFは無いけれども)HDFSにSPOFがあるので、NameNodeは冗長化した方が良いようです。 冗長化には以下のような仕組みが考えられているようです。 続きを読む

    HDFSはファイルサーバーに使うものじゃないよ
  • 自分の手を動かし自分の頭で考えるということ - wyukawa's diary

    仕事の関係で自分が今までやったことがないことをやることになってしかもそれが新しめのことだったりすると新鮮で面白いわけですね。 で、自分なりにその技術をいろいろ調べたりしているうちにその界隈で著名な人が誰だかわかってきてTwitterでフォローしたりブログをウオッチしたりするようになります。 活発なコミュニティがあるのであれば勉強会にも顔をだして発表を聞いたり場合によっては著名な人と会話する機会もあるかもしれません。 こうしていろいろな情報を得るようになってきます。これはこれで楽しいのですが、ちょっと危うさもあるなあと最近思うようになってきました。 どういうことかというと、著名な人と会話しただけでオレつえー感を味わってしまう可能性があるからです。というか僕がそうでした。 当人はたいしたこと無いのにその著名な人がすごいからその知り合い?であるオレもすげえんだみたいに思ってしまうことです。 言う

    自分の手を動かし自分の頭で考えるということ - wyukawa's diary
  • 1