[B! Spark] shunmatsuのブックマーク

KafkaとSpark Streamingの統合について｜Engineers' Blog｜SBクラウド株式会社 - SBクラウド株式会社

こんにちは　Kouです。 Webアクセス解析や、ログのリアルタイムモニタリングと不正検知、ソーシャルメディア分析などの時に、オープンソースの分散ストリーミングプラットフォームと呼ばれるApache KafkaとSparkにストリームデータを処理するSpark Streamingを組み合わせたストリームデータ処理システムはよく利用されると考えられます。今回の記事はTwitterのメッセージ分析を例として、Alibaba CloudのE-MapReduce上で、KafkaとSpark Streamingの統合方法について、皆さんにご紹介させて頂きたいと思います。検証環境について Spark Streaming EMR-3.20.0 クラスタータイプは Hadoop ハードウェア構成(Header)はecs.sn2.largeを1台ハードウェア構成(Worker)はecs.sn2.large

shunmatsu 2020/06/17

リンク

Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services

Amazon Web Services ブログ Kubernetes で Spark パフォーマンスを最適化する Apache Spark はオープンソースプロジェクトで、分析分野で幅広い人気を博しています。有名なビッグデータや、ストリーミングといったの機械学習ワークロード、幅広いデータセットの処理、ETL などで使用されています。 Kubernetes は、人気のあるオープンソースのコンテナ管理システムで、アプリケーションのデプロイ、メンテナンス、スケーリングのための基本的なメカニズムを提供します。Amazon EKS は、高可用性コントロールプレーンを提供するマネージド Kubernetes サービスで、AWS で本番環境レベルのワークロードを実行します。お客様は、EKS でマイクロサービス、バッチ、機械学習などのさまざまなワークロードを実行できます。このブログは、Kubernete

shunmatsu 2020/04/23

リンク

AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services

Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、

shunmatsu 2019/11/11

リンク

Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services

Amazon Web Services ブログ Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 AWS 上でビッグデータの ETL ワークフローを実行している大企業は、多数の内部エンドユーザーにサービスを提供できるようなスケールで運用しており、何千もの同時パイプラインを実行しています。このことは、新しいフレームワークと、ビッグデータ処理フレームワークの最新のリリースに遅れずについていくため、ビッグデータプラットフォームを更新し、拡張する点での継続的なニーズと相まって、ビッグデータプラットフォームの管理を簡素化することと、ビッグデータアプリケーションへの容易なアクセスを促すことの両方を可能にする、効率的なアーキテクチャと組織構造を要求しています。この投稿では、一元管理型のプラットフォームチームが

shunmatsu 2019/11/10

リンク

Amazon SageMakerからS3に保存したデータを操作する方法について（EMR,Glueを利用する) ｜ Developers.IO

Amazon SageMakerからS3に保存したデータを操作する方法について（EMR,Glueを利用する) 概要こんにちは、yoshimです。今回はタイトルの通り、Amazon SageMakerからS3に保存したデータを操作する方法についてご紹介します。基本的には下記の公式ドキュメントの通りですが、「新規にSageMakerインスタンスを作成する場合」、「既存のSageMakerインスタンスを利用する場合」の2パターンを検証してみました。 AWSの公式ドキュメント目次 1.やることと構成について 2.新規にSageMakerインスタンスを作成する場合 3.既存のSageMakerインスタンスを利用する場合 4.まとめ 5.引用 1.やることと構成について 1-1.やること S3に保存したデータセットをGlueデータカタログに登録し、EMRクラスターで処理させた結果をSageMa

shunmatsu 2018/09/26

リンク

JupyterからSpark clusterを操作できるlivy + sparkmagicを試してみた - once upon a time,

Spark Summit 2016でもトークがあったSparkのREST serverであるlivyですが、MicrosoftがHDInsight上のSpark clusterとJupyterをlivyを使って繋げられるようにしたと聞いて、早速試してみました。 Jupyterって何？という方は簡単に言うと、ブラウザで各種言語のREPLが動くものと思ってもらえばいいです。詳細は過去に書いた以下の記事を読んでみてください。 techlife.cookpad.com livyとは livyはSpark clusterをコントロールするためのREST Serverです。 Microsoftはこれとjupyter notebookのsparkmagicを使ってHDInsightとjupyterをつなげるようにしているそうです。 MSの取り組みはSpark Summit 2016のトークがわかりやす

shunmatsu 2018/09/18

リンク

（翻訳）2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

始めに：pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。（原文：http://wesmckinney.com/blog/outlook-for-2017/ ） 2016/12/27 Python dataの開発に関して、2017はエキサイティングな年になりそうです。このポストでは、私から提供できそうなものについて書いていきます。それぞれのピースを全体としてどうまとめていくつもりなのか、詳しくは今後のポストで書いていきます。2016年は開発とPython for Data Analysisの第2版の作業で完全に手一杯でblogはあまり書けませんでした。2017

shunmatsu 2018/08/19

リンク

Distributed computing (Apache Hadoop, Spark, Kafka, ...) - Qiita Advent Calendar 2017 - Qiita

大規模データの分散処理を実現するミドルウェアに関する技術情報ならなんでもどうぞ例 Apache Hadoop Apache Spark Apache Kafka Apache Hive Apache HBase Apache Impala Apache Tez Apache Drill Apache Flink Apache Storm Apache Software Foundationのプロジェクトが並んでいるけど、そうでないものももちろんOKです 2016 https://qiita.com/advent-calendar/2016/distributed-computing 2015 http://qiita.com/advent-calendar/2015/nxdistributedcomputing http://qiita.com/advent-calendar/2015/

shunmatsu 2018/01/06

リンク

Madhukar's Blog

shunmatsu 2017/11/19

リンク

Spark内部構造解説ドキュメントのリンク集 - Qiita

Apache Sparkの内部構造・動作について説明している情報源を紹介します（今後、随時更新していきたいと思いますので、誤り・他の情報源などありましたらお知らせください）。（翻訳を除き）全て英語のスライド・文書ですが、長い文が書かれているものは少ないので、理解できるかと思います。全体像 A Deeper Understanding of Spark’s Internals https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf Execution modelとShuffleに絞って解説しています（Cachingについては説明していません） Spark Architecture http://0x0fff.c

shunmatsu 2017/11/03

リンク

Sparkプログラミングのお勉強～WindowsだけでサクッとIDE環境を作ってみた - Qiita

遅まきながら、Sparkのプログラミングを勉強しようかなー、と思いまずは環境整備！と思ったんですが、根が怠け者だし、Sparkは現物のHadoopなしでも動く(はずな）ので、手持ちのWindows PCだけでなんとかしたい！( LinuxのVM作るの面倒) 手慣れたEclipse(ScalaIDE)で動くようにしたい！どうせなら最新のSpark 1.6で新しい機能も勉強しよう！ (一応プログラミング言語はScalaを前提に) と思いました。でネット上の情報を色々調べながら取り組んだのですが、情報が古かったり、sbteclipseで..（略）と面倒だったり、で結構ハマりました。色々試した結果、今の時点で一番簡単と思う方法があったのでメモしておきます。ネタ元は1.2 How to run Spark with Eclipse and Scala, Standalone Developme

shunmatsu 2017/10/15

Spark

リンク

Windows上にApache Spark環境を作ってみた - Qiita

#はじめに Apache Spark勉強用に、Windows上にSpark環境作ってアプリケーション(とりあえずScala)を作成/コンパイル/実行する、という所までやってみます。色々眺めていると開発環境としてはIntelliJ, Eclipseあたりが主流なようです。あとはJupyter Notebook？合わせてビルドツールとしてsbt, mavenなどが使われたりするようです。が、素人には初モノの要素が盛りだくさんすぎてアワアワしはじめたので、最低限sbtだけ使ってまずは動かす所までの手順を整理しておきます。 #環境構築 ##Apache Sparkのインストールこの辺の記事を参考にSparkをインストールします。 Sparkアプリケーションの基本と、はじめに押さえておきたい重要な概念まずはApacheのサイトからダウンロード。 https://spark.apache.or

shunmatsu 2017/10/15

リンク

ゼロからはじめるSparkアプリケーション入門一覧

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

shunmatsu 2017/10/15

Spark

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

shunmatsu 2017/10/01

リンク

Sparkで利用できるDeep Learningフレームワークまとめ - Gunosyデータ分析ブログ

こんにちは、Gunosyデータ分析部に所属している森本です。主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。最近良く聞く音楽はOne Direction - Live While We're Youngです。本記事では、Sparkで利用できるDeep Learningフレームワークをまとめました。 GunosyではChainerで畳み込みニューラルネットワークを応用し、ユーザーのデモグラフィック推定を行っています。 WebDB Forum 2016 gunosy from Hiroaki Kudo Chainer以外にも多数のDeep LearningフレームワークがPythonを中心に数多く存在します。 TensorFlow, Keras, Caffe, Theanoなどなど。どのフレームワークが優れているかという回答は状況に応じて変わりますが、Pythonを使用する大

shunmatsu 2017/09/09

リンク

Spark SQLサンプルアプリの実行 - Qiita

Spark SQLではDataFrameと呼ばれる抽象的なデータ構造（RDBのテーブルのように行と名前とデータ型が付与された列の概念を持つデータ構造）を用いる。DataFrameはRDD、HIVEテーブル、他のデータソース（ファイルなど）から生成できる。 -DataFrameによる操作 -テーブル形式のデータセットに対してクエリを発行 http://spark.apache.org/docs/latest/sql-programming-guide.html https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html SparkSQLサンプルアプリの実行 Spark入門の６章に記載されているプログラムをScalaではなくPython3を使って書き直す。 csv形式のデザートメニュー（メニューID、メニューの名前、値段、カロ

shunmatsu 2017/09/06

リンク

Spark DataframeのSample Code集 - Qiita

はじめに：Spark Dataframeとは Spark Ver 1.3からSpark Dataframeという機能が追加されました。特徴として以下の様な物があります。 Spark RDDにSchema設定を加えると、Spark DataframeのObjectを作成できる Dataframeの利点は、 SQL風の文法で、条件に該当する行を抽出したり、Dataframe同士のJoinができる filter, selectというmethodで、条件に該当する行、列を抽出できる groupBy → aggというmethodで、Logの様々な集計ができる UDF(User Defined Function)で独自関数で列に処理ができる SQLで言うPivotもサポート (Spark v1.6からの機能) つまり、RDDのmapやfilterでシコシコ記述するよりもSimple Codeで、且つ高

shunmatsu 2017/09/06

リンク

Spark環境の構築と運用の煩わしさを排除し、分析に専念できるSpark環境の選択肢

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

shunmatsu 2017/09/05

Spark

リンク

はじめてのSpark SQL！Amazon EMRを使って10分で試してみる | DevelopersIO

はじめに Spark SQLに触ってみたので手順などをまとめました。Spark SQLというのは Apache Hiveのようにクエリ実行することで分散処理ができるものです。Hiveとの違いはインメモリであるために高速に処理できることとクエリ言語にSQLが使えることです。10分位で試せると思いますのでSparkやEMRに触ったことがない方はぜひやってみてください。 1.EC2のキーペアを用意する EC2インスタンスにSSHで接続するのでキーペアがない場合は作成する必要があります。以下のAWSのサイトを見て作ってください。キーペアがすでにある方はスキップしてもらって結構です。 Amazon EC2 のキーペア - Amazon Elastic Compute Cloud 2.サンプルのファイルを用意する今回は私が趣味でやっているポケモン GOで捕まえたポケモンの名前、CP、タイプ情報が入っ

shunmatsu 2017/08/19

リンク

Resilient Distributed Datasetsに関する論文まとめ（１章〜５章 - 夢とガラクタの集積場

こんにちは。 Resilient Distributed Datasetsに関する論文「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）について、概念と動作概要が書かれた１章〜５章を読んだので、１投稿にまとめます。基本的には以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 Sparkが対象とするような「基本的には全データに対して同じ演算を行う」アプリケーションにおいては読み取り専用というRDDの性質がマイナスにならないこと、読み取り専用であることで一貫性考慮が簡略

shunmatsu 2017/08/17

Spark

リンク

はてなブックマーク

タグ

関連タグで絞り込む (54)

Sparkに関するshunmatsuのブックマーク (40)

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス