Final Report | Installation | How it Works | Use Cases | Code | License Google Summer of Code 2017 Final Report Big Data Tools for Physics Analysis Introduction Jupyter Notebook is an interactive computing environment that is used to create notebooks which contain code, output, plots, widgets and theory. Jupyter notebook offers a convenient platform for interactive data analysis, scientific comput
Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモ メモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscala、pythonの方がすっきりかけている気がじます。 これからも随時編集していきます Apache Spark とは 上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin
Spark on Dockerで分散型機械学習を始める - Part 4: AmbariでHadoopとSparkのsingle nodeセットアップhadoopSparkDockerHDPAmbari このシリーズ Spark on Dockerで分散型機械学習を始める - Part 1: インストール Spark on Dockerで分散型機械学習を始める - Part 2: UbuntuでIPython Notebookを使う Spark on Dockerで分散型機械学習を始める - Part 3: ローカルモードでspark-shellを起動する Spark on Dockerで分散型機械学習を始める - Part 4: AmbariでHadoopとSparkのsingle nodeセットアップ Apache Ambari Sparkの勉強はローカルモードでもspark-shel
山縣です。 今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。 無料にもかかわらずメモリ6GBのAWSのインスタンスとNotebook が使えるというなかなか太っ腹なサービスです。 弊社では Cloudera社の CDH のクラスタがありSparkもその上で動かしていますが、個人的にSpark そのものの動作を確認したり、異なるバージョンを触りたいときに時々使わせてもらっています。 Sparkの学習用環境としては十分な機能が備わっていると思いますので、簡単に紹介したいと思います。 ユーザ登録 Commun
Introducing PlaxidityX, Formerly Argus Cyber Security LTD. Search for PlaxidityX in Google or contact us at: [email protected] Argus is a trademark applied for protection in Israel under application no. 375915; other third parties using the company identifier, trademark or domain name Argus outside of Israel have no affiliation to us. Introduction As part of our efforts of establishing a robust ba
9. case.1 Spark1.5系&HDFS-HAでエラー Sparkクラスタを1.4.0から1.5.1へバージョンアップしたと ころ、ジョブがfailするようになりました。 NameNodeが解決できていないようなエラーメッセージです。 ※nameservice1はHDFS-HAクラスタに設定した論理サービス名です。 内容 15/10/21 15:22:12 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, spark003.example.com): java.lang.IllegalArgumentException: java.net.UnknownHostException: nameservice1 at org.apache.hadoop.security.SecurityUtil.buil
この記事はSpark Advent Calendar 2015の記事です。 SparkのSecurity HadoopもSparkと同じようにデータ処理のための分散フレームワークなのでsecureなデータを使って処理を行うことはままあります。Sparkはそれ単体ではストレージレイヤーを含まないものの(Tachiyonとか最近でてきましたが)そのデータを使うjobを好きなように投げることができます。通常HDFSやS3にあるデータは認証、認可を経てアクセスされるようになっていると思います。今回はそれよりも上の層のSparkのjob自体をsubmitするとき、jobの情報を参照するときの認証、認可がどのように行われているかを見てみたいと思います。 Sparkでの認証 Shared secret 最もシンプルな方法はshared secret tokenを使う方法です。shared secret
はじめに 本コラムでは、ビッグデータ分析とファストデータ分析を組み合わせるための仕組みである「ラムダアーキテクチャー」の紹介をする。私どもは現在、Apache Sparkを最大限に活用したラムダアーキテクチャーの構想を練っており、その実現方式が固まった際は、コラムにてサンプルを紹介しようと考えている。ただ、「ラムダアーキテクチャー」という言葉に耳慣れない人もまだ多いかと思い、まずはラムダアーキテクチャーについての説明から始めることとする。 ビッグデータ、ファストデータ関連の潮流 まずは、ビッグデータとファストデータ(≒リアルタイム、≒ストリーミング)の世間の潮流について復習する。ここでの「世間の潮流」とは、あくまで、筆者の個人的な感覚をもとにして記載している。エンジニア視点で書いているため、経営者支援やマーケッター視点とは異なると思われるが、その点はご容赦頂きたい。 Hadoopの登場によ
2016年4月29日紙版発売 2016年4月29日電子版発売 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門 著 B5変形判/352ページ 定価3,960円(本体3,600円+税10%) ISBN 978-4-7741-8124-0 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto この本の概要 Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ,バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため,さまざまなシーンのデータ分析を強力にサポートします。 本書では,Sparkの分散処理の基礎であるRDDのしく
2. 本発表の想定聴講者とゴール • 想定している聴講者 • CTOや技術選択の責任者レベルの方 • Spark の機械学習ライブラリの初学者 • ゴール • Sparkのデータサイエンス関連の Top-Level API は企業における • 「実践」を意識して作られていることを知っていただく • スケーラブルな機械学習アルゴリズムが簡単に利用できる • 実践的な機械学習に必要な一連の複雑な処理も簡単に利用できる • 本発表では話さないこと • Spark の分散処理のやキャッシュの仕組み • Spark のクラスタ管理やチューニング • 個別の機械学習アルゴリズムの具体的な解説 など 2 4. Apache Sparkとは? • 大規模データを処理するための分散処理システム • Speed, Easy of Use, Generality, Runs Everywhere • 「ポスト
20150909初めてのSpark.md 概要 イベント名:「初めてのSpark」刊行記念Spark Meetup 2015 開催日:2015年9月9日(水) 時 間:19:00から22:30(懇親会21:00〜22:30) 場 所:ドワンゴ様セミナールーム (歌舞伎座タワー14階) 〒104-0061 東京都中央区銀座4-12-15 http://dwango.co.jp/corporate/map.html 定 員:250名 参加費:無料(含む懇親会) 主 催:Cloudera株式会社 協 賛:株式会社ドワンゴ、株式会社オライリー・ジャパン 19:00 「初めてのSpark」刊行のご挨拶 Sky株式会社 玉川竜司 Advanced Analytics with Spark年内に出したい! 入門にはとても良いはず。原書(今年一月初版)の間違い結構直ってます。新バージョン(1.41)にキャ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く