clavierのブックマーク - はてなブックマーク

DatabricksでSpark Structured Streamingをやってみる - Qiita
ストリーミング処理とは、大量のデータをロードしながら順番に処理していく処理方法です。非同期に順番に処理していくだけなので、論理的にはできそうだけど可用性やスケール性を考えるとなかなか難しい領域です。そんなストリーミング処理を、DatabricksというSparkのプラットフォーム上で、Spark Structured Streamingを使って実現する方法をまとめていきます。 Databricksは、Apache Sparkを作った人が創業した会社で、AWSやAzureといったクラウド上に、Spark環境を自動的に構築してくれるサービスです。昨年約430億円調達し、バリュエーションが６7００億円というみたこともない金額になっているらしいです。参考記事会社名をあまり聞いたことがない方も多いかもしれませんが、Spark&AI Summitを主催するなど、データエンジニアリング界隈では
clavier 2020/02/18
spark
リンク
1

はてなブックマーク