[B! distributed-computing][apache-hadoop][apache-spark] nabinnoのブックマーク

nabinno id:nabinno

distributed-computingとapache-hadoopとapache-sparkに関するnabinnoのブックマーク (4)

Big Data with Elixir
nabinno 2019/12/26
elixir-forum

elixir

erlang

apache-hadoop

apache-spark

distributed-computing
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
nabinno 2019/12/15
apache-spark

mapreduce

apache-hadoop

distributed-computing

concurrent-computing
リンク
分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
nabinno 2019/12/15
apache-hadoop

apache-spark

mapreduce

distributed-computing

concurrent-computing
リンク
ビッグデータプラットフォーム — Amazon EMR — AWS
Amazon EMR Apache Spark、Trino、および他のビッグデータワークロードを簡単に実行してスケール Amazon EMR は、比類のない柔軟性とスケールにより、分析ワークロードを加速するビッグデータ処理サービスです。EMR は、Apache Spark、Trino、Apache Flink、Apache Hive 向けにパフォーマンス最適化ランタイムを備えており、コストと処理時間を大幅に削減します。このサービスは AWS とシームレスに統合し、データレイクワークフローとエンタープライズ規模のアーキテクチャを簡素化します。組み込みの自動スケーリング、インテリジェントモニタリング、マネージドインフラストラクチャを備えた EMR を利用することで、クラスターの管理ではなくインサイトの抽出に注力でき、従来のソリューションの運用上のオーバーヘッドなしに、ペタバイト規模の分析が効率
nabinno 2019/09/08
amazon-emr

apache-hadoop

apache-spark

apache-hbase

distributed-computing

analytics
リンク
1