タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

hadoopとsparkに関するnfunatoのブックマーク (4)

  • Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016

    Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan(以下Yahoo!)です。 同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。 同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。 同社データインフラ部 遠藤禎士(えんどうただし)氏

    Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016
  • Python 分散処理 Spartan - Qiita

    この記事はPythonで分散処理したい方に向けた記事です。 pythonのイメージは遅いという方も多いと思います。 そのイメージを払拭すべくcythonなどのライブラリが出ていますが、今回はpythonを高速化する手法の一つとして分散処理について紹介しようと思います。 分散処理の代表といえば。 ・Hadoop ・Spark です。 今回はSparkを単純にpythonに適用したいと考えたのですが・・ 下記の記事でJVMとPythonのデータ構造の変換が何回も起こり、レイテンシーが大きくなるのであまり早くならないと記述がありました。 上図の構造を見てみるとSpark Workerとデータをパイプする部分が多く分散処理するとそこがネックになるかもという印象を受けます。 そこで今回はPythonでのデータ処理はNumPyという行列データ構造を使うことで高速化することができるため、Numpy行列を

    Python 分散処理 Spartan - Qiita
  • さくらのクラウドでHadoop/Spark/Asakusa環境を構築する(2) ~Sparkのセットアップと実行編~ | さくらのナレッジ

    はじめに 「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。 前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。 今回は、Apache Spark を紹介します。 前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。 また、Sparkが提供するSQL実行エンジン Spark SQLや、 ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。 インストール構成 これからHadoopクラスタにSpa

    さくらのクラウドでHadoop/Spark/Asakusa環境を構築する(2) ~Sparkのセットアップと実行編~ | さくらのナレッジ
  • Spark が次のビッグデータの主役、という主張についての疑問

    Sho Shimauchi @shiumachi "Sparkは、ビッグデータ処理ソフトの定番「Hadoop」に続く、次なるビッグデータ処理の主役に目され始めている" ちょっと私の理解と違うかなあ itpro.nikkeibp.co.jp/atcl/column/15… Sho Shimauchi @shiumachi SparkはHadoopと比較するのではなく、 MapReduceと比較するものだと思っている。 バッチ処理(MapReduce)や、SQL (Impala/Presto/Drill)、全文検索(Solr/Elasticsearch)等に並ぶ新しい分散処理がSparkという認識 Sho Shimauchi @shiumachi そもそもHadoopは何か。HDFS(分散ストレージ)+MapReduce(分散バッチ処理)だけの時代はこのまま覚えていればよかった。しかし、Map

    Spark が次のビッグデータの主役、という主張についての疑問
  • 1