タグ

Sparkに関するwalk77のブックマーク (10)

  • Sparkアプリケーションの基本と、はじめに押さえておきたい重要な概念

    はじめに はじめまして、IBMの田中裕一です。 デバイスやセンサの高度化による、モバイルから取得できるデータの多様化、IoTの格化といったハードウェアの面、機械学習格的な広がりといったソフトウェアの面、双方の進歩もあり、ビッグデータのキーワードのもと、大規模なデータ分析基盤を構築するデータエンジニアやデータサイエンティストの重要性が増しています。 昨今いろいろな分散処理基盤や機械学習ライブラリが登場してきましたが、連載では数回に分けてApacheプロジェクトでも人気が高いApache Spark(以下、Spark)を使い、Sparkでのプログラミングやデータ処理を中心に見ていきます。 また、分散処理系で入門時につまづくことが多いClusterでの動作や、Sparkの詳細な挙動を連載後半に回すことで、Sparkを使う際のハードルを下げられればと思っています。 対象読者 連載を通して、

    Sparkアプリケーションの基本と、はじめに押さえておきたい重要な概念
    walk77
    walk77 2016/05/12
  • さくらのクラウドでHadoop/Spark/Asakusa環境を構築する(2) ~Sparkのセットアップと実行編~ | さくらのナレッジ

    はじめに 「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。 前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。 今回は、Apache Spark を紹介します。 前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。 また、Sparkが提供するSQL実行エンジン Spark SQLや、 ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。 インストール構成 これからHadoopクラスタにSpa

    さくらのクラウドでHadoop/Spark/Asakusa環境を構築する(2) ~Sparkのセットアップと実行編~ | さくらのナレッジ
  • SparkでPostgreSQLデータを扱う - Qiita

    話題のApache Sparkでこんなことも出来るという話。Sparkのマニュアルを読んでいて見つけたので、試してみました。試した環境は CentOS 7.1 Apache Spark 1.4.1 PostgreSQL 9.4.4 です。 Apache Spark Sparkの説明は割愛。 高速な分散処理基盤であるApache SparkはHadoopやCassandraといったデータストアだけでなく、RDBMSに格納されたデータを取り出して処理することもできます。 なので、既存のデータを移行せずにSparkの高速処理の恩恵を受けることが出来ます。 PostgreSQLのテーブルをSparkにロード JDBC接続を利用するので、PostgreSQLのJDBC Driverが必要です。 今回はお手軽にspark-shellで操作することにして、

    SparkでPostgreSQLデータを扱う - Qiita
  • AWS meetup「Apache Spark on EMR」

    This document discusses Apache Spark on EMR and best practices for using Spark. It introduces the speaker and their experience with Spark at SmartNews. It then covers recent Spark updates, how SmartNews uses Spark for tasks like AD targeting and recommendation, and 10 best practices for using Spark on EMR like running Spark on Yarn, tuning memory settings, minimizing data shuffle, and using dynami

    AWS meetup「Apache Spark on EMR」
  • 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社

    0. ログやデータを取得した後は? ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与(エンリッチメント)することにより、分析の幅は大きく広がる。 全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。

    楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
  • 該当するコースがありません | NECビジネスインテリジェンス 研修サービス

    Copyright © NEC Business Intelligence, Ltd. 2008-2024. All rights reserved.

    walk77
    walk77 2014/11/05
  • Spark Summit 2014 レポート Day1 | Recruit Tech Blog

    はじめまして,ATL の石川有です. ただいま 2014-06-30 から 2014-07-02 まで開催される Spark Summit 2014 に参加しています.さっそく1日目に聴講した発表を簡単にまとめてみました.Spark 初学者にとってウォッチすべきは,キーノートのさわりと Databricks 社が開発中の Databricks Cloud の機能についてだと思います.この記事では,Spark とはなにかという基的なことについては触れませんのでご了承ください.Spark 自体の説明については,後日改めて記事にしたいと思います. Spark がなんぞやというのがわからない人にとっては,この記事を読み進めるのが辛いかもしれません。記事を読む上で抑えるべきことはつぎの2つです. Apache Spark はビッグデータ関連の Apache プロジェクトの中でもっとも活発なプロジ

    Spark Summit 2014 レポート Day1 | Recruit Tech Blog
    walk77
    walk77 2014/07/01
  • Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog

    はじめに 先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。 そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装を わけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について 現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。 距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て

  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • Apache Spark Streaming=大規模準リアルタイムストリーム処理? - 夢とガラクタの集積場

    こんにちは。 Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。 とりあえず、そんなわけで(?)お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。 まず見てみた資料は「Overview of Spark Streaming」(http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf)です。 というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か? 大規模ストリーム処理フレームワーク ・100オーダーのノードにスケールする ・秒単位のレイテンシで処理を実行可能 ・Sparkのバッチ

    Apache Spark Streaming=大規模準リアルタイムストリーム処理? - 夢とガラクタの集積場
  • 1