タグ

qiitaとdistributed-computingに関するnabinnoのブックマーク (3)

  • Apache Flink とは? - Qiita

    「Apache Flink」は、分散ストリーム処理プラットフォームのひとつのOSSです。 同類のモノとしては、「Apache Storm」や「Apache Spark Streaming」などがあります(同じApacheで、さすがに同類のモノを出し過ぎだろう、と私も思っています)。 他のプラットフォームとして異なる特長は、以下になります。 高パフォーマンス&低レイテンシ(真のストリーム処理が可能) 耐障害性に優れる(自動でイベント処理継続) ストリーム処理、バッチ処理の両方をサポートし、高レベルのAPIが提供されるAll-in-One構成 Flink Stack Flinkの全体像です。 ストリーム処理だけでなく、バッチ処理も可能であり、CEP(複合イベント処理)やML(機械学習)、SQLライクなAPIも提供しています。 この辺りは、Sparkと似ていますね。ただ、Sparkはバッチ処理か

    Apache Flink とは? - Qiita
  • Spark and YARN - Qiita

    SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。 クラスタマネージャとしてのYARN Sparkはアプリケーション(厳密にはSparkアプリケーション)ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr

    Spark and YARN - Qiita
  • Apache Spark で分散処理入門 - Qiita

    Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモ メモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscalapythonの方がすっきりかけている気がじます。 これからも随時編集していきます Apache Spark とは 上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin

    Apache Spark で分散処理入門 - Qiita
  • 1