[B! Spark] [2ページ] J138のブックマーク

楽しい可視化： elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社

0. ログやデータを取得した後は？ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与（エンリッチメント）することにより、分析の幅は大きく広がる。全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。

J138 2015/03/06

Spark
Apache

リンク

MacでSparkを使ってログの集計するサンプルアプリを作成してみた - Qiita

ログを集計する方法としてSparkを使ってみる。前準備 Spark本体のダウンロードとビルドここに書いてある通りまずはsparkのビルドをする mavenはbrew install mavenしとておく事 $ mvn -v Apache Maven 3.1.1 (0728685237757ffbf44136acec0402957f723d9a; 2013-09-18 00:22:22+0900) Maven home: /usr/local/Cellar/maven/3.1.1/libexec Java version: 1.6.0_65, vendor: Apple Inc. Java home: /System/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Home Default locale: ja_JP, platfo

J138 2015/03/05

Spark

リンク

scalaでRESTサービス実装を学ぶ。 - Qiita

他に、playでmbaasというプロジェクトbaasboxがあるが、javaベースで実装されているので、ひとまず除外。今回の対象は、spray|liftweb。・・・調査＆学習コスト云々の話が深刻となりそうだが、即座に動く例題をizmailoff氏(ガチな感じのliftwebとspray界隈のコミッター)が公開してくれているので、メモしておこうと思った。選択肢① liftweb liftweb(rest+model)+mongo db OpenBankProjectが、liftで実装したAPIなどをその名の通り、公開してくれている。いろいろあるので、マイナーなlift実装を比較的まとまった規模のコードで学ぶのに良い。選択肢② spray+akka+liftweb spray(rest)+akka+liftweb(model)+mongo db mongo db動かしておけば、github

J138 2015/03/05

Spark
akka

リンク

ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp

Hadoopはホットだ、だがその従兄弟であるSparkは更にホットな存在だ。 Sparkは5年前のApache Hadoopの様な存在で、バークレー大 AMP研で生まれた、Hadoopのエコシステムで動くMapReduceに代わる高速データ処理エンジンだ。これは（MapReduceの様な）バッチ処理および、ストリーミングやインタラクティブ・クエリーといった新しいワークロードや、機械学習やグラフ処理でよく見られる反復アルゴリズムの処理に対応している。サンフランシスコに拠点を構えるTypesafeは、私が去年記事で触れたJava開発者に対するよく知られたアンケート調査のスポンサーであり、Scala、Playフレームワーク、Akkaのコマーシャルな支援者だ。最近行われたSparkについてのアンケート調査では、2000人以上（正確には2136人）の開発者からの回答が得られた。そこから以下三点の結

J138 2015/03/04

Spark
Hadoop

リンク

大規模並列処理：PythonとSparkの甘酸っぱい関係～PyData.Tokyo Meetup #3イベントレポート

ロゴステッカーの作成計画も進行中です。近々イベント会場でお配りできるかも知れません。チュートリアルおよび次回勉強会のお知らせこの度PyData.Tokyo初の試みとして、初心者向けのチュートリアルを3月7日（土曜日）に行います。また、次回勉強会はデータ解析に関する「高速化」をテーマにし、4月3日（金曜日）に開催します。詳細は記事の最後をご覧下さい。 Sparkによる分散処理入門 PyData.Tokyo オーガナイザーのシバタアキラ（@madyagi）です。ビッグデータを処理するための基盤としてHadoopは既にデファクトスタンダードになりつつあります。一方で、データ処理に対するさらなる高速化と安定化に向けて、新しい技術が日々生まれており、様々な技術が競争し、淘汰されています。そんな中、Apache Spark（以下Spark）は、新しい分析基盤として昨年あたりから急激にユーザーを増

J138 2015/03/04

Spark
Python

リンク

第1回“Learning Spark”読書会に参加しました | DevelopersIO

2/28(土)に行われた第1回“Learning Spark”読書会に参加してきました。当日は、大きく分けて事前アンケート結果のご紹介 ``Introduction to Data Analysis with Spark'' －Apache Sparkによるデータ分析への招待－ ``Downloading Spark and Getting Started'' －Sparkを導入し、使ってみよう－懇親会の流れで進みました。本記事では、セッションを聞かせて頂き、私自身が注目したポイントを挙げたと思います。 ※気になったポイントの羅列となるため、発表者様の発言そのものや、セッション資料(後述するslideshare上の資料)の文言そのままとなっているところが多いかと思います。予め引用させて頂いていることをお断りしておきます。事前アンケート結果のご紹介主催者様である@data_scie

J138 2015/03/03

Spark

リンク

ビズリーチの新サービスをScalaで作ってみた〜マイクロサービスの裏側 #jissenscala

This document discusses messaging queues and platforms. It begins with an introduction to messaging queues and their core components. It then provides a table comparing 8 popular open source messaging platforms: Apache Kafka, ActiveMQ, RabbitMQ, NATS, NSQ, Redis, ZeroMQ, and Nanomsg. The document discusses using Apache Kafka for streaming and integration with Google Pub/Sub, Dataflow, and BigQuery

J138 2015/02/25

Scala
Spark

リンク

Machine Learning Library (MLlib) - Spark 1.1.0 Documentation

Machine Learning Library (MLlib) MLlib is Spark’s scala ble machine learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives, as outlined below: Data types Basic statistics summary statistics correlations stratified sampling hypothesis te

J138 2015/01/19

リンク

GitHub - apache/spark: Apache Spark - A unified analytics engine for large-scale data processing

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

J138 2015/01/19

Spark

リンク

カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（前編） - ALBERT Engineer Blog

はじめに当ブログでは Apache Spark プロジェクトの機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器今回のエントリでは MLlib の協調フィルタリングについて書きます。アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。少し長くなるので前・後編に分かれます。以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング

J138 2015/01/16

リンク

Spark MLlibではじめるスケーラブルな機械学習

JJUG ナイト・セミナー「機械学習・自然言語処理特集！」（2014/12/17）講演資料『Spark MLlibではじめるスケーラブルな機械学習』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 Read less

J138 2015/01/15

リンク

http://blog.yoslab.com/entry/2014/12/15/234342

J138 2015/01/15

Spark
MLlib

リンク

Movie Recommendation with MLlib

In this chapter, we will use MLlib to make personalized movie recommendations tailored for you. We will work with 10 million ratings from 72,000 users on 10,000 movies, collected by MovieLens. This dataset is pre-loaded in your USB drive under data/movielens/large. For quick testing of your code, you may want to use a smaller dataset under data/movielens/medium, which contains 1 million ratings fr

J138 2015/01/15

リンク

Scala ではじめる Spark / MLlib の単純ベイズ分類器 - ALBERT Engineering Blog

はじめに以前のエントリにて Spark / MLlib の K-means を取り上げましたが、今回は同じく MLlib にて提供されている機械学習アルゴリズムの一つ、単純ベイズ分類器 (Naive Bayes, ナイーブベイズ) を使ってみましょう＆K-分割交差検証をしてみましょう、というエントリです。単純ベイズ分類器そのものについては読者の皆様はご存知、という前提でこの後の話を進めてしまいますので、「ちょっと良くわからないよ待ってくれ！」という方は単純ベイズ分類器 – Wikipedia 第3回　ベイジアンフィルタを実装してみよう：機械学習はじめよう｜gihyo.jp … 技術評論社第8回　自由回答式アンケートで顧客の声を聞くための考え方：Mahoutで体感する機械学習の実践｜gihyo.jp … 技術評論社などのページを一読することをおすすめします。単純ベイズ分類

J138 2015/01/15

リンク

MLlib | Apache Spark

Ease of use Usa ble in Java, Scala, Python, and R. MLlib fits into Spark's APIs and interoperates with NumPy in Python (as of Spark 0.9) and R libraries (as of Spark 1.5). You can use any Hadoop data source (e.g. HDFS, HBase, or local files), making it easy to plug into Hadoop workflows. data = spark.read.format("libsvm")\ .load("hdfs://...") model = KMeans(k=10).fit(data) Performance High-quality

J138 2015/01/15

MLlib
Spark

リンク

Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習

Spot Instance + Spark + MLlib�で実現する簡単低コスト�高速機械学習 AWS Casual Talks#2 LT 2014/4/18 Read less

J138 2015/01/15

リンク

Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開

米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日（米国時間）に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる（関連記事：NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入）。 Sparkは、もともと米Universi