[B! Spark] J138のブックマーク

MySQLではできないことができるデータベース(広義)達

自分は一応暫くMySQLの開発者だったので、MySQLでできることできないことはすぐわかる訳です。現実的な問題と対峙すること１年間、MySQLは使えることにしか使わないわけで、そうすると構築してしまうと、アラートメールが全く来ないので、水や空気のように存在を忘れてしまいます。でも、使えないことには全く使う気がしないわけで…。というわけでMySQLは結局逆にあまり触れていません。限られた範囲では完成を見ているというわけでしょうか。データを処理して何か貯めて利用できるものをデータベースとするならば、MySQLを適用する気も起きないような領域があって、近年はそのような領域に挑む別の道具が出てきています。今回は趣向を変えて、いろいろ現状MySQLでは扱えない問題の解決法を模索したことについて少し触れます。MySQLを離れた話題ですが、いつか遠い未来にMySQLの世界に持って帰る事柄かも知れませ

J138 2016/03/13

リンク

Java で Apache Spark を使用 - なんとなくな Developer のメモ

以前、sbt を使って Scala で Hadoop MapReduce 実装や Groovy で Storm を使うで実施したお金の数え上げ処理を Spark 0.8 を使って Java で実装してみました。 Spark は以前、Spark を使って単純なレコメンドを実施で 0.4 を試しましたが、0.8 でも API に大きな変化はないようです。（パッケージ名は org.apache.spark へ変わってますが） Apache Spark 0.8.0 サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20131116/ はじめに実装する処理内容は、下記のようなファイルを読み込んで数値毎にカウントするだけの単純なものです。 input_sample.txt 100 1 5 50 500 1000 10000

J138 2015/11/06

Spark

リンク

Spark Streaming最初の一歩 - pochi's weblog

はじめに Spark, SQL on Hadoop etc. Advent Calendar 2014 15日目です。 3日目の記事でもSpark Streamingは紹介されていましたが、私のほうではより初心者向けの基本的な内容を記述しておきたいと思います。 Spark Streamingとはリアルタイムログ検索エンジンを考えてみる実装してみる Spark Streamingとは Apache Sparkはインメモリで動作する柔軟なバッチエンジンです。 Spark Streamingはストリームで流れてくるデータに対してApache Sparkで書いたバッチが動作するものです。誤解を恐れずにいうとSpark Streamingは主に以下の3つの機能を提供しています。各種ストリームデータを取得するためのコネクタ(Receiver)を提供するストリームデータをSparkのRDDのよ

J138 2015/11/05

Spark

リンク

Running Apache Spark Cluster by using Kubernetes

J138 2015/09/08

リンク

AWS News Blog

AWS Week in Review – AWS Documentation Updates, Amazon EventBridge is Faster, and More – May 22, 2023 Here are your AWS updates from the previous 7 days. Last week I was in Turin, Italy for CloudConf, a conference I’ve had the pleasure to participate in for the last 10 years. AWS Hero Anahit Pogosova was also there sharing a few serverless tips in front of a full house. Here’s a picture I […] Amaz

J138 2015/06/18

AWS
Spark

リンク

https://jp.techcrunch.com/2015/06/16/20150615ibm-pours-researchers-and-resources-into-apache-spark-project/

J138 2015/06/17

Spark

リンク

Scala SparkでTwitterのストリーミング処理テスト on Vagrant Ubuntu 14.04 - Qiita

# -*- mode: ruby -*- # vi: set ft=ruby : # Vagrantfile API/syntax version. Don't touch unless you know what you're doing! VAGRANTFILE_API_VERSION = "2" Vagrant.configure(VAGRANTFILE_API_VERSION) do |config| config.vm.box = "opscode-ubuntu1410" config.vm.box_url = "http://opscode-vm-bento.s3.amazon aws.com/vagrant/virtualbox/opscode_ubuntu-14.10_chef-provisionerless.box" config.vm.provider :virtualb

J138 2015/04/06

リンク

Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場

こんにちは。間が空いてしまっていますが、 Spark Summitの資料をとりあえず読んでみよう、の第２弾です。今回は「Spark Performance」を見てみました。概要の次にいきなり性能の資料に入ってしまうあたり趣味を反映している気もしますが＾＾；では、見てみます。あと、この情報はSpark0.8.1準拠だそうです。現状の最新版ですね。 Spark deep dive まず、下記のRDDの記述によって性能が変わることを理解いただきたい。 ■RDD (patrick, $24), (matei, $30), (patrick, $1), (aaron, $23), (aaron, $2), (reynold, $10), (aaron, $10)….. ■パターン１（groupByKey）このパターンの場合、groupByKeyオペレーションを実行したタイミングで全データ

J138 2015/04/02

Spark

リンク

しつこいがSpark & YARNの補足 – OpenGroove

しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳／誤訳／勝手に追記したりしてるので参考はほどほどに。以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している（データをメモリに保持し、タスクに対して素早く対応するこ

J138 2015/04/01

Spark
YARN

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

J138 2015/03/31

Hadoop
Spark

リンク

[Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO

はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transf ormations」と「Actions」です。「Transf ormations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD

J138 2015/03/30

リンク

[Apache Spark]ストリーミング処理でツイートを取得してJOINする | DevelopersIO

はじめに最近はApache Sparkをちょこちょこと触っている、t.hondaです。前回に引き続きストリーミング処理についてです。今回は複数のキーワードでツイートを取得し、それぞれのツイートをユーザIDでJOINしてみたいと思います。ソースコードということで、いきなりソースコードです。尚、ScalaとSparkのバージョンは以下の通りです。 Scala 2.10.4 Apache Spark 1.2.0 import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.SparkContext._ import org.apache.spark.streaming.twitter._ import org.apache.spark.SparkConf import org.ap

J138 2015/03/24

Spark
Scala

リンク

[Apache Spark]ストリーミング処理で直近の人気ハッシュタグを取得する | DevelopersIO

はじめに Apache Sparkの用途の一つとして、ストリーミング処理があります。今回はその例として、Twitterから直近の人気のハッシュタグを取得する処理を取り上げてみたいと思います。処理の流れと用語についてソースをお見せする前に、大まかな処理の流れと、用語について説明したいと思います。先ず処理の流れですが、以下のようになります。 Streamの作成ハッシュタグを持つRDDの取得 DStreamの取得 DStream内のRDDよりハッシュタグを取得見慣れない用語ばかりかと思いますが、以下で処理の流れに沿って解説したと思います。 1.Streamの作成データを連続して取得するためのStreamを作成する処理です。今回はTwitterよりデータを取得するストリームを作りますが、他にも Kinesis、Kafka、Flume、ZeroMQ、TCPなどから取得することが出来るようで

J138 2015/03/23

リンク

Apache Spark による推薦システム案件例

2015-03-21 #TokyoWebmining 44th の発表資料です。

J138 2015/03/23

Apache
Spark

リンク

Apache SparkアプリをEclipseで動かすまでの手順 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

J138 2015/03/15

リンク

Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | 株式会社NTTデータ先端技術

バッチを高速にした後はリアルタイムの世界へ！現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、直近10秒間のトラフィックを集計したい。直近10分間で自社商品がTwitterで話題になった回数を知りたい。直近10時間での全店舗での来客数を集計したい。といったリアルタイムなモニタリングを実現したくなるのではないだろうか？こういったモニタリング用の集計は、技術的には「ウインドウ集計（Time-Window Operation）」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac

J138 2015/03/11

Spark
Scala

リンク

Private Presentation

Private content!This content has been marked as private by the uploader.

J138 2015/03/10

Spark
MLlib

リンク

Spark & YARNを試してみる（後半） – OpenGroove

前回からの続き。以下に沿って、Spark & YARNモードでサンプルプログラムSparkPi を実行してみた。環境はAWSのm1.mideumマシン + CentOS6.5、CDH5のHadoop疑似分散環境にSparkも同居。Sparkのバージョンはまだ0.9.0。 Running Spark Applications (CDH5) jarファイルをHDFSにコピー。 $ hadoop fs -mkdir -p /user/spark/share/lib $ hadoop fs -put /usr/lib/spark/assem bly/lib/spark-assem bly_2.10-0.9.0-cdh5.0.0-hadoop2.3.0-cdh5.0.0.jar \ /user/spark/share/lib/spark-assem bly.jar spark-env.shは、以下プロパ

J138 2015/03/09

Spark
YARN

リンク

Spark & YARNを試してみる（前半） – OpenGroove

Spark 1.0が、5/30にようやくリリースされた…！ Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半／後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明） Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい

J138 2015/03/09

リンク

Sparkとかいうのがありまして - Qiita

この記事はScala Advent Calendarの9日目です。遅刻しました。すんません（´・ω・｀） Apache Sparkとかいうのがあるぽよです。よくわかんないけど面白そうなので足突っ込んでみました。そもそもSpark is 何？大規模ストリーム処理フレームワークだそうな。 RDD(Reslient Distributed Datasets)と呼ばれるキャッシュ機能によってデータセットを繰り返し扱うような処理（機械学習、データマイニング）が他と比べて数倍から数十倍早く行える。主な用途として、機械学習やデータマイニング、ログ解析など。 Streaming配信を行うサービスで使われたりも。そして何より…..Scalaで実装されてる！今回の目標とりあえず「チュートリアル」やってみます。まずは導入からローカル環境で遊んでみる分には、Spark本体のみで大丈夫です。

J138 2015/03/06

Scala
Spark

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

Sparkに関するJ138のブックマーク (38)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス