タグ

sparkに関するhohoho_ho2005のブックマーク (370)

  • EMRのpysparkでPython3系を使う - Qiita

    EMRでのpython3系の使い方 EMRでpysparkを使おうとするとデフォルトでは2系が使われてしまいます。3系をどうせなら使いたいので使い方を調べてみました。 現時点で最新のEMRのバージョンは 5.0.0でSparkは2.0.0が入っています。またPythonのバージョンは2.7.10が使われています。 $ pyspark Python 2.7.10 (default, Jul 20 2016, 20:53:27) [GCC 4.8.3 20140911 (Red Hat 4.8.3-9)] on linux2 Type "help", "copyright", "credits" or "license" for more information. Setting default log level to "WARN". To adjust logging level use

    EMRのpysparkでPython3系を使う - Qiita
  • Apache Sparkの勉強-超概要を理解する - Tomo's IT Blog

    Apache Sparkを基礎から勉強していきます。 基的にはドキュメントを読み進めながら動作を確認していこうと思います。 まずはトップページを読んでみよう Apache Sparkのトップページ Apache Spark™ - Lightning-Fast Cluster Computing ここを見れば、そもそもApache Sparkが何なのか概要レベルで解るはずです。 Apache Spark™ is a fast and general engine for large-scale data processing. Apache Sparkは、大規模なデータ処理のための高速かつ汎用的エンジンです。 特徴①:速い! まず一つめと特徴としては、処理速度にあります。同じような並列分散処理基盤であるHadoop MapReduce上でプログラムを実行するよりもインメモリであれば最大10

    Apache Sparkの勉強-超概要を理解する - Tomo's IT Blog
  • Apache Sparkの勉強-Clusterを構成してみよう!Standaloneクラスタ編 - Tomo's IT Blog

    前回は、Apache SparkのQuick Guideを読み進めて、Sparkの動作を実際に確認してみました。 tmnj.hatenablog.com tmnj.hatenablog.com 今回は、Sparkのクラスタ構成に挑戦してみたいと思います。 まずは以下のドキュメントでClusterの概要を理解します。 Cluster Mode Overview - Spark 2.0.2 Documentation その後、以下のドキュメントを参考にしてStandaloneクラスタ構成を組みたいと思います! (注:Standaloneクラスタ構成とはSparkに内在するクラスタマネージャを利用するという意味で、シングルインスタンス構成ではありません。) Spark Standalone Mode - Spark 2.0.2 Documentation まずはクラスタ概要を読んでみよう! クラ

    Apache Sparkの勉強-Clusterを構成してみよう!Standaloneクラスタ編 - Tomo's IT Blog
  • Spark 2.0 で Spark SQLを試す - astamuse Lab

    こんにちは!Spark大好きな朴です。 日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおり もう使えるようになりました。 ということで少し乗り遅れた感もありますが、日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の3つ SparkSession 性能改善 サポートするSQLが増えた 日は上記3つの改善について触れてみたいと思います。 【変更その1】 SparkSQLのニューエントリポイントSparkSession Spark

    Spark 2.0 で Spark SQLを試す - astamuse Lab
  • Pythonで動かしてみるSpark入門 - Qiita

    Sparkとは ライトニング高速クラスタコンピューティング。 バッチ処理を大規模分散するライブラリ。分散処理を良しなにやってくれる。 SQL使える。ストリーミングデータ使える。機械学習使える。グラフ理論使える。ディープラーニング載せれる。これらがメモリを駆使して高速にクラスタ分散してくれる。 試した環境 mac python2.7.12 spark-1.6.2-bin-hadoop2.6 Sparkのインストール JDKのインストール

    Pythonで動かしてみるSpark入門 - Qiita
  • 【ハンズオン資料】twitterのデーター�を取得し、Apache Sparkによる感情分析 - Qiita

    Bluemix x Apache Spark ハンズオン資料 ・Bluemix新規登録(30日間、無料枠あり) Bluemix新規アカウント取得はこちら ※ この30日間、Bluemixと連携されている100以上のAPIやIBMのサービスがほとんど無料で使えます。 ■ Open Cloud Innovation Festa 2016を開催します。 2016年9月16日(金)- 2016年9月17日(土)、二日間電気通信大学にて技術カンファレンス「Open Cloud Innovation Festa 2016」を開催いたします。 ★ 今「旬」のテクノロジーや革新的なサービス一挙ご紹介 ★ オープンイノベーションを支える国内外の最新事例を始め、最先端の技術を活用しサービスを展開している企業やコミュニティの皆さまより、全32セッション(クラウド・ロボティックス・IoT・DevOps・ビック

    【ハンズオン資料】twitterのデーター�を取得し、Apache Sparkによる感情分析 - Qiita
  • 手を動かす Spark MLlib & Word2Vec Part 2 (Wikipedia 英語版から Word2Vec モデルを作るまで) - 無印吉澤

    このシリーズについて Part 2 の範囲 Wikipedia 英語版のデータからコーパス作成 最終的にやったこと つまづいたこと コーパスの、S3 へのアップロード 最終的にやったこと つまづいたこと spark-submit で使う jar の作成 最終的にやったこと つまづいたこと Amazon EC2 への Spark クラスタの構築(5台構成) 最終的にやったこと つまづいたこと spark-submit の実行 最終的にやったこと つまづいたこと(1):ドライバのメモリ使用量を増やさないと落ちる つまづいたこと(2):vocabSize*vectorSize が大きすぎると落ちる つまづいたこと(3):モデルのサイズが大きすぎると akka のフレームサイズ上限を超えて落ちる ローカルマシン上での Word2Vec モデルの利用 最終的にやったこと パターン1:minCount

    手を動かす Spark MLlib & Word2Vec Part 2 (Wikipedia 英語版から Word2Vec モデルを作るまで) - 無印吉澤
  • TensorFlowOnSpark (readme翻訳) – OpenAI API / Gemini API | ClassCat® Chatbot

    TensorFlowOnSpark (readme 翻訳) 翻訳 : (株)クラスキャット セールスインフォメーション 日時 : 02/14/2017 * ページは、github TensorFlowOnSpark の readme を翻訳したものです: https://github.com/yahoo/TensorFlowOnSpark/blob/master/README.md TensorFlowOnSpark とは何か? TensorFlowOnSpark はスケーラブルな深層学習を Apache Hadoop と Apache Spark にもたらしました。深層学習フレームワーク TensorFlow とビッグデータ・フレームワーク Apache Spark / Apache Hadoop 由来の顕著な特徴を結合することにより、TensorFlowOnSpark は GPU

  • TensorFlowOnSparkを動かしてみた

    TensorflowOnSparkを起ち上げてみた Yahoo!がTensorflowOnSparkを公開しました。 Sparkクラスターで動くTensorflowのようです。 GitHub: https://github.com/yahoo/TensorFlowOnSpark 記事: http://yahoohadoop.tumblr.com/ https://techcrunch.com/2017/02/13/yahoo-supercharges-tensorflow-with-apache-spark/ Distributed Tensorflowはすでにありますし、Sparkクラスターでの起動を試している人も見かけましたが、天下のYahoo!がTensorflowをカバーするというので面白い試みです。 Distributed Tensorflow https://www.tenso

    TensorFlowOnSparkを動かしてみた
  • Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

    5. 4© Hitachi, Ltd. 2016. All rights reserved. Node Node Stage (インメモリ処理)Stage (インメモリ処理) Job HDFS 1-1. Sparkは並列分散処理フレームワーク • 複数ノードでクラスタを構成し、並列なデータ読み出し・変換/集約処理・書き込みを行う  MapReduceと違い、処理の大半がインメモリで行われるため高速である  分散処理するデータをRDD (Resilient Distributed Dataset: 耐障害性分散データセット) と呼ぶ Task Partition Partition Task Partition Partition Task Partition Partition Task Partition Partition Task Partition Partition Task

    Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
  • Sparkと機械学習と時々MPI - LINE ENGINEERING

    1対NやN対1の転送では1台のサーバに高い負荷がかかる一方で、log(N)対1やN対Nの転送ではディスクへのアクセスが起こってしまうというトレードオフがあります。以下において、より詳細な転送方向ごとの実装と掛かるコストについて解説します。 DriverからExecutorへの転送 - Broadcast、Closure BroadcastはTask間で共通のデータ(現在のパラメータなど)をDriverから各Executorに一つだけ転送するSparkの機能です。Taskとして実行されるClosure(関数オブジェクト)に共通のデータを直接埋め込むと、Executorに対してTaskの数だけ共通データが転送されることになるため、これを避けるためにBroadcastが利用されます。 Broadcastでモデルのパラメータを転送する場合、Driverと各Executorのメモリ上でそれを持つ必要

    Sparkと機械学習と時々MPI - LINE ENGINEERING
  • Apache Spark Notes

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    Apache Spark Notes
  • 【Apache Spark】NMF (ALS) による推薦を試してみた |

    前回, 構築した Spark on YARN 環境で ml/recommendation/ALS を試してみます。 実行環境は以下です。 macOS: 10.12.1 Java: 1.8.0_111 Apache Hadoop: 2.7.3 Apache Spark: 2.0.2 HDFS にデータをロード 今回使う data/mllib/als/sample_movielens_ratings.txt は左から, ユーザID, アイテムID, レイティング, 時間 となっている。 レイティングに 0 の多い疎な行列となっている。 $ head $SPARK_HOME/data/mllib/als/sample_movielens_ratings.txt 0::2::3::1424380312 0::3::1::1424380312 0::5::2::1424380312 0::9::4:

  • Apache cassandraと apache sparkで作るデータ解析プラットフォーム

    4. IoTデータとは IoTとM2M Internet of Things Machine to Machine マシンツーマシン(Machine-to-Machine)とは、 コンピュータネットワークに繋がれた機械同士 が人間を介在せずに相互に情報交換し、自動 的に最適な制御が行われるシステムを指す。 一意に識別可能な「もの」がインターネット/ク ラウドに接続され、情報交換することにより相 互に制御する仕組みである

    Apache cassandraと apache sparkで作るデータ解析プラットフォーム
  • Sparkのデータ処理プロセスと処理性能のボトルネック

    処理時間の増大という性能問題を解決するには、その問題が発生している箇所と処理過程を特定する必要があります。そのため、まずはSparkのデータ処理の概要を解説します(図1)。 Sparkでは、Map処理からReduce処理へ遷移する際に中間データを生成・出力します。その処理を「シャッフル」と呼びます。このとき、中間データはファイル出力されるため「シャッフルファイル」とも呼ばれます。 図1の処理を順序に沿って解説します。 HDFSから処理対象の消費電力量データをメモリ上に読み出します。このとき、Sparkが管理する領域にデータを読み出します。 読み出したデータをメモリ上で集計処理します。 処理後、中間データ(シャッフルファイル)をファイル出力しますが、ディスクへ書き込む前にメモリ上のOSが管理するページキャッシュ領域に書き込みます。 その後、中間データをまとめてディスクへ非同期に書き込みます。

    Sparkのデータ処理プロセスと処理性能のボトルネック
  • SparkのWeb UIを調べてみた

    SparkのWeb UIに記載されている項目の意味について(日語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載する予定。 間違いを見つけたらコメントお願いします。m(__)m

    SparkのWeb UIを調べてみた
  • Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -

    - Apache Spark is an open-source cluster computing framework for large-scale data processing. It was originally developed at the University of California, Berkeley in 2009 and is used for distributed tasks like data mining, streaming and machine learning. - Spark utilizes in-memory computing to optimize performance. It keeps data in memory across tasks to allow for faster analytics compared to dis

    Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
  • 「Spark MLlibでリコメンドエンジンを作った話」を話してきました - Qiita

    技術的な話 用いた技術は、 Spark(1.6 -> 2.0) MLlib EMR RedShift Finagle netlib-java ElastiCache (Memcached) あたりが挙げられます。 手順としては、 生ログをRedShiftで前処理してS3に保存 SparkがS3からデータを読みモデル生成 モデルをS3にバイナリ出力 推薦サーバがモデルを読み込み、リアルタイム推薦 or Cacheから読む 結果が多少バラけるように独自ロジックを加えて推薦サーバの出力とする。 という形になります。 Spark周りの動かし方やトラブルシューティングについてはここにメモしてあります。(この記事から他の記事へたくさんリンクが出ています。) http://qiita.com/uryyyyyyy/items/f8bb1c4a4137e896de7f 登壇してみての話 この手の技術は前提知

    「Spark MLlibでリコメンドエンジンを作った話」を話してきました - Qiita
  • 概要 - Spark 2.0.2 ドキュメント 日本語訳

    ここから少し、楽天モバイルの宣伝になります。 このサイトでアフィリエートや広告を貼るつもりは全然無かったのですが、 6月中に楽天モバイルの契約30件を取るか、船を降りるかするように言われています。 回線の増設を考えている方、お子様に新しく携帯を持たせようと考えている方、 下記リンク先で楽天にログイン後、楽天モバイルの各プランをご検討いただけないでしょうか。 楽天モバイル 紹介リンク Sparkの概要 Apache Sparkは高速で汎用的なクラスタコンピュータシステムです。Java, Scale, PythonおよびRの高レベルのAIPを提供し、一般的な実行グラフをサポートする最適化されたエンジンを提供します。SQLおよび構造データのためのSpark SQL機械学習のためのMLlib、グラフ処理のためのGraphX およびSpark Streamingを含む高レベルのツールの充実したセッ

  • 2016ー2017のApache Sparkに起こったこと/起こること | gihyo.jp

    Sparkの2016年は、1月4日にバージョン1.6.0のリリースからスタートしましたが、なんといっても今年の目玉はバージョン2.0.0のリリースでした。2016年7月26日にリリースされ、この開発には2,000以上のパッチが投稿され、世界中から280人もの開発貢献者の参画があったと言われています。 バージョン2.0ではアーキテクチャが抜的に見直され、さらなる性能向上、さらなる使いやすさが実現しました。両バージョンについては現在もメンテナンスが続けられており、稿執筆時点では1.6.3、2.0.2が最新リリースです。そして、12月28日にバージョン2.1がリリースされました。稿では、2016年後半の中心だったバージョン2.0の特徴について、バージョン1.6以前も振り返りつつおさらいし、2017年にどのような取り組みがなされるかについてお伝えします。 Sparkの特徴のおさらい 2016

    2016ー2017のApache Sparkに起こったこと/起こること | gihyo.jp