[B! 分散処理] skypenguinsのブックマーク

skypenguins id:skypenguins

分散処理に関するskypenguinsのブックマーク (12)

Apache Kafka最新アップデート (2023年6月16日版)
Apache Kafka Meetup Japan #13の発表資料です。 2023年6月16日(JST)時点での、Apache Kafkaのアップデートやロードマップを紹介しています。
skypenguins 2024/03/07
kafka

分散処理

raft

zookeeper
リンク
Raft - Kubernetes(etcd)のHA構成はなぜ3台以上？ | TECHSCORE BLOG | TECHSCORE BLOG
こんにちは。松本です。 Kubernetes コントロールプレーンの HA(High Available) 構成は二通りありますが、公式ドキュメント内に次のような記述があり、いずれの方式でも 3 台以上のマシンでクラスターを構成することが求められています。 For both methods you need this infrastructure: Three machines that meet kubeadm’s minimum requirements for the masters （中略） For the external etcd cluster only, you also need: Three additional machines for etcd members この、最小が "three" である必要性は、どこからくる制約なのでしょうか。"two" じゃだめなのでし
skypenguins 2024/03/07
k8s

Kubernetes

分散処理

アルゴリズム
リンク
Apache Kafkaの概要とアーキテクチャ - Qiita
初版: 2018/9/28 著者: 伊藤雅博, 株式会社日立製作所はじめにこの投稿ではオープンソースカンファレンス2017.Enterpriseで発表した「めざせ！Kafkaマスター　～Apache Kafkaで最高の性能を出すには～」の検証時に調査した内容を紹介します（全8回の予定）。本投稿の内容は2017年6月にリリースされたKafka 0.11.0 時点のものです。第1回目となる今回は、Apache Kafkaの概要とアーキテクチャについて紹介します。投稿一覧： 1. Apache Kafkaの概要とアーキテクチャ (本投稿) 2. Apache KafkaのProducer/Broker/Consumerのしくみと設定一覧 3. Apache Kafkaの推奨構成と性能の見積もり方法 4. Apache Kafkaの性能検証(1): 検証環境とパラメータチューニングの内容
skypenguins 2024/03/07
kafka

DB

分散処理
リンク
分散システムについて語るときに我々の語ること ― 分散システムにまつわる重要な概念について | POSTD
分散システムについては、もう随分と前から学びたいと思っていました。ただ、それは一度首を突っ込んだら最後、ゴールのない迷路に迷い込むようなものなのです。どこまでも続いているウサギの穴のようなものです。分散システムに関する文献は星の数ほど存在します。様々な大学からたくさんの論文が発表されているばかりでなく、膨大な数の書籍もあるのです。私のような全くの初心者には、どの論文を読んだらいいのか、どの書籍を買ったらいいのか、見当もつきません。そんなとき、一部のブロガーが、分散システムエンジニア（それがどういう意味であれ）になるなら知っておくべき論文というものを推奨しているのを見つけました。その一部を紹介しましょう。 FLP , Zab , Time, Clocks and the Ordering of Events in a Distributed Systems , Viewstamped
skypenguins 2016/01/20
アルゴリズム

分散処理

インフラ

開発
リンク
Apache Spark Streaming＝大規模準リアルタイムストリーム処理？ - 夢とガラクタの集積場
こんにちは。 Sparkについて調べてみよう企画第２段（？）です。１回目はまずSparkとは何かの概要資料を確認してみました。その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。とりあえず、そんなわけで（？）お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。まず見てみた資料は「Overview of Spark Streaming」（http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf）です。というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か？大規模ストリーム処理フレームワーク・100オーダーのノードにスケールする・秒単位のレイテンシで処理を実行可能・Sparkのバッチ
skypenguins 2015/12/28
Spark

apache spark

apache

開発

分散処理
リンク
Hadoopと愉快な仲間たち - Qiita
自分用のメモです。ビッグデータ分散処理 Hadoop Spark インメモリー処理を主体 Storm リアルタイムHadoop Hadoop による分散データ処理: 第 1 回導入編 Hadoop による分散データ処理: 第 2 回拡張編 Hadoop による分散データ処理: 第 3 回アプリケーション開発 Spark Apache Sparkは、Scalaで（Hadoopのような）分散処理を行う為のライブラリー（OSS） HadoopのMapReduce部分に置き換わることを目指して開発された、Scalaで分散処理を行うフレームワークで、いわば高速化されたMapReduceといえる Spark を活用する:ビッグデータアプリケーション用の高速インメモリコンピューティング分散処理に入門してみた（Hadoop+Spark） Apache Spark Apache Spark の紹介
skypenguins 2015/11/21
hadoop

Spark

HDFS

MapReduce

開発

分散処理
リンク
Apache Mesosで構築したクラスタ上で、Apache Sparkの分散処理を実行する。 | 三度の飯とエレクトロン
Apache SparkをAmazon EC2にインスール今回は、SparkをAmazon EC2のインスタンスにインスールしていきます。やっていることは下記と同じで、ビルド済みのパッケージをダウンロードして配置しているだけです。高速な分散処理エンジンApache Sparkの操作を対話シェルで試してみる！ cd /tmp wget http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0-bin-hadoop2.4.tgz tar xzf spark-*.tgz rm spark-*.tgz sudo mv spark-* /opt/spark これでSparkが配置完了です。 Apache Mesosを利用するためのApache Sparkの設定 Mesosで構築したクラスタを利用するために、Sparkの設定を変更していきます。 spark-
skypenguins 2015/11/20
Spark

mesos

分散処理

開発
リンク
クラスタマネージャーApache Mesosを使って、Amazon EC2にクラスタを構築。 | 三度の飯とエレクトロン
Apache Sparkを試しています。高速な分散処理エンジンApache Sparkの操作を対話シェルで試してみる！ Apache SparkをJavaアプリケーションから使う。ここまでは、単一のホストで動作を試していましたが、分散処理のためのライブラリなので、複数ホストで試さなければ本当の性能は得られません。そこで、ここからはSparkのクラスタを構築していきたいと思います。 Apache Mesosは汎用のクラスタマネージャー分散処理クラスタを構築する方法として、SparkのドキュメントにApache Mesosを使う方法が書かれています。 Apache Mesos Mesosは汎用のクラスタマネージャーです。具体的に何をしてくれるかというと、クラスタを管理して、ホストごとのリソースの余裕を見て、タスクを振り分けたりしてくれます。もうひとつ、YARNという選択肢があります。
skypenguins 2015/11/20
ec2

mesos

AWS

開発

分散処理
リンク
高速な分散処理エンジンApache Sparkの操作を対話シェルで試してみる！ | 三度の飯とエレクトロン
Apache Sparkは高速な分散処理エンジン「高速に」といっても、「スループットが高い」という意味と、「レスポンスが早い」という意味があります。「スループットが高い」というのは、一定時間にどれだけたくさんの処理ができるかです。「レスポンスが早い」というのは、処理を要求してから完成までにかかる時間が短いという意味です。分散処理といえばHadoopが浮かびますが、Hadoopはスループット重視です。レスポンスタイムを重視したい場合には向きません。レスポンスを重視したい場合というのはたとえば、ユーザーからリクエストを受けてすぐに分析結果を返したい場合のような場合です。 Apache Sparkは、レスポンスタイムを重視した分散処理エンジンです。 Apache Spark™ – Lightning-Fast Cluster Computing 先日書いたPrestoもレスポンスタイムを重
skypenguins 2015/11/20
Spark

分散処理

開発
リンク
Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
バッチを高速にした後はリアルタイムの世界へ！現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、直近10秒間のトラフィックを集計したい。直近10分間で自社商品がTwitterで話題になった回数を知りたい。直近10時間での全店舗での来客数を集計したい。といったリアルタイムなモニタリングを実現したくなるのではないだろうか？こういったモニタリング用の集計は、技術的には「ウインドウ集計（Time-Window Operation）」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac
skypenguins 2015/11/20
Spark

分散処理

インフラ
リンク
Apache Sparkメモ(Hishidama's Apache Spark Memo)
概要 [/2017-01-14] Hadoopとの比較 [/2014-09-12] サンプル [/2017-01-22] インストール開発環境の構築 [2017-01-22] インストール [/2017-01-14] Sparkシェル [/2014-09-19] 実行方法 [/2017-01-18] API（RDD系） SparkContext [/2014-09-15] RDD [/2017-07-26] パーティション [2014-09-07] Kryo（シリアライズ） [/2015-01-15] Spark SQL [/2014-09-02] Hive操作 [2014-09-01] Streaming [2014-09-02] API（Dataset系） SparkSession [2017-01-14] Dataset [/2020-10-08] Encoder [2017-01
skypenguins 2015/11/20
mesos

Spark

分散処理
リンク
Elixirで分散じゃんけんをシミュレートする - c4se記：さっちゃんですよ☆
じゃんけんをシミュレートしてみる。練習問題だ。人間を五人ほど作り、グー／チョキ／パーのなにを出させるかをそれぞれに決めさせ、勝負する。引き分けを考慮し、勝者が最後の一人になるまで繰り返す。せっかくElixir (Erlang) でつくるのだから、各人間をプロセスにしてみる。まずPersonモジュールをstructにする。Elixirはstructが入って大変便利になった。それまではrecoedを使ってゐたもので、プロセスの関数を含むモジュールとrecordのモジュールは別にしなければならなかった。Ruby人間としてstructは助かる。 spawnしてPersonを五人作る。PersonのプロセスIDが得られるので、これで話しかけられる。さて、五人に手を出してもらう。そして五人が何の手を出したか確認せねばならない。おお。五人全員の手が揃わなければならないのだ。四人で勝ちを決めても五
skypenguins 2015/11/12
Elixir

プログラミング

Erlang

開発

分散処理
リンク
1