[B! Apache spark] yassan0627のブックマーク

yassan0627 id:yassan0627

Apache sparkに関するyassan0627のブックマーク (22)

Dynamic Partition Pruning in Apache Spark
yassan0627 2020/04/24
データ

Apache spark
リンク
Hive Bucketing in Apache Spark
yassan0627 2020/04/24
Apache spark

hive

データ

hadoop
リンク
Real-time Recommendations using Spark Comcast Labs
Databricks is the Data and AI company. More than 10,000 organizations worldwide — including Block, Comcast, Conde Nast, Rivian, and Shell, and over 60% of th...
yassan0627 2019/02/27
Sparkカンファレンスのビデオ・アーカイブ

spark

conference
リンク
Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog
2021夏：ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連（Hadoop、Spark、Kafka、機械学習系など）関連書籍のまとめです。日本語で提供されている書籍を中心に掲載していますが、読んだことがある／手元にある／買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。当初はブログで公開していましたが、更新が多いので独立したページとしました。（コメントは私見です。素晴らしい書籍ばかりです）書籍名（原書）出版日コメント
yassan0627 2018/12/17
hadoop

Apache Kafka

Apache spark
リンク
SparkMonitor | An extension to monitor Apache Spark from Jupyter Notebook
Final Report | Installation | How it Works | Use Cases | Code | License Google Summer of Code 2017 Final Report Big Data Tools for Physics Analysis Introduction Jupyter Notebook is an interactive computing environment that is used to create notebooks which contain code, output, plots, widgets and theory. Jupyter notebook offers a convenient platform for interactive data analysis, scientific comput
yassan0627 2018/10/17
Apache spark
リンク
Apache Spark で分散処理入門 - Qiita
Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモメモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscala、pythonの方がすっきりかけている気がじます。これからも随時編集していきます Apache Spark とは上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin
yassan0627 2017/10/17
Apache Spark

分散処理

データ
リンク
Spark on Dockerで分散型機械学習を始める - Part 4: AmbariでHadoopとSparkのsingle nodeセットアップ - Qiita
Spark on Dockerで分散型機械学習を始める - Part 4: AmbariでHadoopとSparkのsingle nodeセットアップhadoopSparkDockerHDPAmbari このシリーズ Spark on Dockerで分散型機械学習を始める - Part 1: インストール Spark on Dockerで分散型機械学習を始める - Part 2: UbuntuでIPython Notebookを使う Spark on Dockerで分散型機械学習を始める - Part 3: ローカルモードでspark-shellを起動する Spark on Dockerで分散型機械学習を始める - Part 4: AmbariでHadoopとSparkのsingle nodeセットアップ Apache Ambari Sparkの勉強はローカルモードでもspark-shel
yassan0627 2017/09/26
Docker

ambari

Apache spark
リンク
Databricks Community Edition で Spark に触れる - astamuse Lab
山縣です。今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。無料にもかかわらずメモリ6GBのAWSのインスタンスとNotebook が使えるというなかなか太っ腹なサービスです。弊社では Cloudera社の CDH のクラスタがありSparkもその上で動かしていますが、個人的にSpark そのものの動作を確認したり、異なるバージョンを触りたいときに時々使わせてもらっています。 Sparkの学習用環境としては十分な機能が備わっていると思いますので、簡単に紹介したいと思います。ユーザ登録 Commun
yassan0627 2017/08/06
Apache spark
リンク
Monitoring Apache Spark (Streaming) with Prometheus - Argus
Introducing PlaxidityX, Formerly Argus Cyber Security LTD. Search for PlaxidityX in Google or contact us at: [em ail protected] Argus is a trademark applied for protection in Israel under application no. 375915; other third parties using the company identifier, trademark or domain name Argus outside of Israel have no affiliation to us. Introduction As part of our efforts of establishing a robust ba
yassan0627 2016/12/12
Apache Spark
リンク
本当にあったApache Spark障害の話
9. case.1 Spark1.5系＆HDFS-HAでエラー Sparkクラスタを1.4.0から1.5.1へバージョンアップしたところ、ジョブがfailするようになりました。 NameNodeが解決できていないようなエラーメッセージです。 ※nameservice1はHDFS-HAクラスタに設定した論理サービス名です。内容 15/10/21 15:22:12 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, spark003.example.com): java.lang.IllegalArgumentException: java.net.UnknownHostException: nameservice1 at org.apache.hadoop.security.SecurityUtil.buil
yassan0627 2016/12/07
Apache spark
リンク
Secure Spark - Qiita
この記事はSpark Advent Calendar 2015の記事です。 SparkのSecurity HadoopもSparkと同じようにデータ処理のための分散フレームワークなのでsecureなデータを使って処理を行うことはままあります。Sparkはそれ単体ではストレージレイヤーを含まないものの(Tachiyonとか最近でてきましたが)そのデータを使うjobを好きなように投げることができます。通常HDFSやS3にあるデータは認証、認可を経てアクセスされるようになっていると思います。今回はそれよりも上の層のSparkのjob自体をsubmitするとき、jobの情報を参照するときの認証、認可がどのように行われているかを見てみたいと思います。 Sparkでの認証 Shared secret 最もシンプルな方法はshared secret tokenを使う方法です。shared secret
yassan0627 2016/12/07
Apache spark
リンク
https://hadoopsters.net/2016/10/27/spark-history-server-automatic-cleanup/
yassan0627 2016/12/06
Apache spark
リンク
MongoDB Connector for Spark - Spark Connector v10.3
General InformationDocumentationDeveloper Articles & TopicsCommunity ForumsBlogUniversity
yassan0627 2016/07/08
MongoDB

Apache spark

データ分析
リンク
Big Data + Fast Data = ラムダアーキテクチャー！ | NTTデータ先端技術株式会社
はじめに本コラムでは、ビッグデータ分析とファストデータ分析を組み合わせるための仕組みである「ラムダアーキテクチャー」の紹介をする。私どもは現在、Apache Sparkを最大限に活用したラムダアーキテクチャーの構想を練っており、その実現方式が固まった際は、コラムにてサンプルを紹介しようと考えている。ただ、「ラムダアーキテクチャー」という言葉に耳慣れない人もまだ多いかと思い、まずはラムダアーキテクチャーについての説明から始めることとする。ビッグデータ、ファストデータ関連の潮流まずは、ビッグデータとファストデータ（≒リアルタイム、≒ストリーミング）の世間の潮流について復習する。ここでの「世間の潮流」とは、あくまで、筆者の個人的な感覚をもとにして記載している。エンジニア視点で書いているため、経営者支援やマーケッター視点とは異なると思われるが、その点はご容赦頂きたい。 Hadoopの登場によ
yassan0627 2016/06/11
あとで読む

Apache spark
リンク
Zalando Engineering Blog - Apache Showdown: Flink vs. Spark
yassan0627 2016/05/09
データ分析

Apache spark

Apache Flink
リンク
詳解 Apache Spark
2016年4月29日紙版発売 2016年4月29日電子版発売下田倫大，師岡一成，今井雄太，石川有，田中裕一，小宮篤史，加嵜長門　著 B5変形判／352ページ定価3,960円（本体3,600円＋税10%） ISBN 978-4-7741-8124-0 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ楽天kobo honto この本の概要 Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ，バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため，さまざまなシーンのデータ分析を強力にサポートします。本書では，Sparkの分散処理の基礎であるRDDのしく
yassan0627 2016/05/02
Apache #spark の本でこんなの出たのか。気になるなぁ。買おうかな。

Apache spark
リンク
2015-11-17 きちんと知りたいApache Spark ～機械学習とさまざまな機能群
2. 本発表の想定聴講者とゴール • 想定している聴講者 • CTOや技術選択の責任者レベルの方 • Spark の機械学習ライブラリの初学者 • ゴール • Sparkのデータサイエンス関連の Top-Level API は企業における • 「実践」を意識して作られていることを知っていただく • スケーラブルな機械学習アルゴリズムが簡単に利用できる • 実践的な機械学習に必要な一連の複雑な処理も簡単に利用できる • 本発表では話さないこと • Spark の分散処理のやキャッシュの仕組み • Spark のクラスタ管理やチューニング • 個別の機械学習アルゴリズムの具体的な解説など 2 4. Apache Sparkとは？ • 大規模データを処理するための分散処理システム • Speed, Easy of Use, Generality, Runs Everywhere • 「ポスト
yassan0627 2015/11/19
Apache spark

機械学習
リンク
Securing Spark Applications by Kostas Sakellis and Marcelo Vanzin
yassan0627 2015/11/19
Apache spark
リンク
「初めてのSpark」刊行記念Spark Meetup 2015 まとめレポート
20150909初めてのSpark.md 概要イベント名：「初めてのSpark」刊行記念Spark Meetup 2015 開催日：2015年9月9日(水) 時間：19:00から22:30（懇親会21:00〜22:30）場所：ドワンゴ様セミナールーム (歌舞伎座タワー14階) 〒104-0061　東京都中央区銀座4-12-15 http://dwango.co.jp/corporate/map.html 定員：250名参加費：無料（含む懇親会）主催：Cloudera株式会社協賛：株式会社ドワンゴ、株式会社オライリー・ジャパン 19:00　「初めてのSpark」刊行のご挨拶 Sky株式会社玉川竜司 Advanced Analytics with Spark年内に出したい！入門にはとても良いはず。原書（今年一月初版）の間違い結構直ってます。新バージョン（1.41）にキャ
yassan0627 2015/09/10
「初めてのSpark」刊行記念Spark Meetup 2015

Apache spark

勉強会

まとめ
リンク
Apache sparkでつぶやきビッグデータクローンをつくってみた
京都OSC 2015 でライトニングトークで発表した内容です。 2015 OSC京都　特有のネタ満載 Read less
yassan0627 2015/08/09
開発

Apache spark

bigdata

データ分析
リンク
1 2 次のページ