[B! spark] [3ページ] hohoho_ho2005のブックマーク

EMRのpysparkでPython３系を使う - Qiita

EMRでのpython3系の使い方 EMRでpysparkを使おうとするとデフォルトでは2系が使われてしまいます。3系をどうせなら使いたいので使い方を調べてみました。現時点で最新のEMRのバージョンは 5.0.0でSparkは2.0.0が入っています。またPythonのバージョンは2.7.10が使われています。 $ pyspark Python 2.7.10 (default, Jul 20 2016, 20:53:27) [GCC 4.8.3 20140911 (Red Hat 4.8.3-9)] on linux2 Type "help", "copyright", "credits" or "license" for more information. Setting default log level to "WARN". To adjust logging level use

hohoho_ho2005 2017/03/26

python
spark

リンク

Apache Sparkの勉強-超概要を理解する - Tomo's IT Blog

Apache Sparkを基礎から勉強していきます。基本的にはドキュメントを読み進めながら動作を確認していこうと思います。まずはトップページを読んでみよう Apache Sparkのトップページ Apache Spark™ - Lightning-Fast Cluster Computing ここを見れば、そもそもApache Sparkが何なのか概要レベルで解るはずです。 Apache Spark™ is a fast and general engine for large-scale data processing. Apache Sparkは、大規模なデータ処理のための高速かつ汎用的エンジンです。特徴①：速い！まず一つめと特徴としては、処理速度にあります。同じような並列分散処理基盤であるHadoop MapReduce上でプログラムを実行するよりもインメモリであれば最大10

hohoho_ho2005 2017/03/26

spark

リンク

Apache Sparkの勉強-Clusterを構成してみよう！Standaloneクラスタ編 - Tomo's IT Blog

前回は、Apache SparkのQuick Guideを読み進めて、Sparkの動作を実際に確認してみました。 tmnj.hatena blog.com tmnj.hatena blog.com 今回は、Sparkのクラスタ構成に挑戦してみたいと思います。まずは以下のドキュメントでClusterの概要を理解します。 Cluster Mode Overview - Spark 2.0.2 Documentation その後、以下のドキュメントを参考にしてStandaloneクラスタ構成を組みたいと思います！（注：Standaloneクラスタ構成とはSparkに内在するクラスタマネージャを利用するという意味で、シングルインスタンス構成ではありません。） Spark Standalone Mode - Spark 2.0.2 Documentation まずはクラスタ概要を読んでみよう！クラ

hohoho_ho2005 2017/03/26

spark

リンク

Spark 2.0 で Spark SQLを試す - astamuse Lab

こんにちは！Spark大好きな朴です。本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおりもう使えるようになりました。ということで少し乗り遅れた感もありますが、本日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の３つ SparkSession 性能改善サポートするSQLが増えた本日は上記３つの改善について触れてみたいと思います。【変更その１】 SparkSQLのニューエントリポイントSparkSession Spark

hohoho_ho2005 2017/03/20

spark

リンク

Pythonで動かしてみるSpark入門 - Qiita

Sparkとはライトニング高速クラスタコンピューティング。バッチ処理を大規模分散するライブラリ。分散処理を良しなにやってくれる。 SQL使える。ストリーミングデータ使える。機械学習使える。グラフ理論使える。ディープラーニング載せれる。これらがメモリを駆使して高速にクラスタ分散してくれる。試した環境 mac python2.7.12 spark-1.6.2-bin-hadoop2.6 Sparkのインストール JDKのインストール

hohoho_ho2005 2017/03/04

spark
python

リンク

【ハンズオン資料】twitterのデーター�を取得し、Apache Sparkによる感情分析 - Qiita

■ Bluemix x Apache Spark ハンズオン資料・Bluemix新規登録（30日間、無料枠あり） Bluemix新規アカウント取得はこちら ※ この30日間、Bluemixと連携されている100以上のAPIやIBMのサービスがほとんど無料で使えます。 ■ Open Cloud Innovation Festa 2016を開催します。 2016年9月16日（金）- 2016年9月17日（土）、二日間電気通信大学にて技術カンファレンス「Open Cloud Innovation Festa 2016」を開催いたします。 ★ 今「旬」のテクノロジーや革新的なサービス一挙ご紹介 ★ オープンイノベーションを支える国内外の最新事例を始め、最先端の技術を活用しサービスを展開している企業やコミュニティの皆さまより、全32セッション（クラウド・ロボティックス・IoT・DevOps・ビック

hohoho_ho2005 2017/02/25

spark

リンク

手を動かす Spark MLlib & Word2Vec Part 2 （Wikipedia 英語版から Word2Vec モデルを作るまで） - 無印吉澤

このシリーズについて Part 2 の範囲 Wikipedia 英語版のデータからコーパス作成最終的にやったことつまづいたことコーパスの、S3 へのアップロード最終的にやったことつまづいたこと spark-submit で使う jar の作成最終的にやったことつまづいたこと Amazon EC2 への Spark クラスタの構築（5台構成）最終的にやったことつまづいたこと spark-submit の実行最終的にやったことつまづいたこと(1)：ドライバのメモリ使用量を増やさないと落ちるつまづいたこと(2)：vocabSize*vectorSize が大きすぎると落ちるつまづいたこと(3)：モデルのサイズが大きすぎると akka のフレームサイズ上限を超えて落ちるローカルマシン上での Word2Vec モデルの利用最終的にやったことパターン1：minCount

hohoho_ho2005 2017/02/25

spark

リンク

TensorFlowOnSpark (readme翻訳) – OpenAI API / Gemini API | ClassCat® Chatbot

TensorFlowOnSpark （readme 翻訳）翻訳 : (株)クラスキャットセールスインフォメーション日時 : 02/14/2017 * 本ページは、github TensorFlowOnSpark の readme を翻訳したものです： https://github.com/yahoo/TensorFlowOnSpark/blob/master/README.md TensorFlowOnSpark とは何か？ TensorFlowOnSpark はスケーラブルな深層学習を Apache Hadoop と Apache Spark にもたらしました。深層学習フレームワーク TensorFlow とビッグデータ・フレームワーク Apache Spark / Apache Hadoop 由来の顕著な特徴を結合することにより、TensorFlowOnSpark は GPU と

hohoho_ho2005 2017/02/17

リンク

TensorFlowOnSparkを動かしてみた

TensorflowOnSparkを起ち上げてみた Yahoo!がTensorflowOnSparkを公開しました。 Sparkクラスターで動くTensorflowのようです。 GitHub： https://github.com/yahoo/TensorFlowOnSpark 記事： http://yahoohadoop.tumblr.com/ https://techcrunch.com/2017/02/13/yahoo-supercharges-tensorflow-with-apache-spark/ Distributed Tensorflowはすでにありますし、Sparkクラスターでの起動を試している人も見かけましたが、天下のYahoo!がTensorflowをカバーするというので面白い試みです。 Distributed Tensorflow https://www.tenso

hohoho_ho2005 2017/02/17

リンク

Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

5. 4© Hitachi, Ltd. 2016. All rights reserved. Node Node Stage (インメモリ処理)Stage (インメモリ処理) Job HDFS 1-1. Sparkは並列分散処理フレームワーク • 複数ノードでクラスタを構成し、並列なデータ読み出し・変換/集約処理・書き込みを行う  MapReduceと違い、処理の大半がインメモリで行われるため高速である  分散処理するデータをRDD (Resilient Distributed Dataset: 耐障害性分散データセット) と呼ぶ Task Partition Partition Task Partition Partition Task Partition Partition Task Partition Partition Task Partition Partition Task

hohoho_ho2005 2017/02/17

spark

リンク

Sparkと機械学習と時々MPI - LINE ENGINEERING

1対NやN対1の転送では1台のサーバに高い負荷がかかる一方で、log(N)対1やN対Nの転送ではディスクへのアクセスが起こってしまうというトレードオフがあります。以下において、より詳細な転送方向ごとの実装と掛かるコストについて解説します。 DriverからExecutorへの転送 - Broadcast、Closure BroadcastはTask間で共通のデータ（現在のパラメータなど）をDriverから各Executorに一つだけ転送するSparkの機能です。Taskとして実行されるClosure（関数オブジェクト）に共通のデータを直接埋め込むと、Executorに対してTaskの数だけ共通データが転送されることになるため、これを避けるためにBroadcastが利用されます。 Broadcastでモデルのパラメータを転送する場合、Driverと各Executorのメモリ上でそれを持つ必要

hohoho_ho2005 2017/02/13

リンク

Apache Spark Notes

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

hohoho_ho2005 2017/02/13

python
spark

リンク

【Apache Spark】NMF (ALS) による推薦を試してみた |

前回, 構築した Spark on YARN 環境で ml/recommendation/ALS を試してみます。実行環境は以下です。 macOS: 10.12.1 Java: 1.8.0_111 Apache Hadoop: 2.7.3 Apache Spark: 2.0.2 HDFS にデータをロード今回使う data/mllib/als/sample_movielens_ratings.txt は左から, ユーザID, アイテムID, レイティング, 時間となっている。レイティングに 0 の多い疎な行列となっている。 $ head $SPARK_HOME/data/mllib/als/sample_movielens_ratings.txt 0::2::3::1424380312 0::3::1::1424380312 0::5::2::1424380312 0::9::4:

hohoho_ho2005 2017/02/03

spark

リンク

Apache cassandraと apache sparkで作るデータ解析プラットフォーム

4. IoTデータとは IoTとM2M Internet of Things Machine to Machine マシンツーマシン（Machine-to-Machine）とは、コンピュータネットワークに繋がれた機械同士が人間を介在せずに相互に情報交換し、自動的に最適な制御が行われるシステムを指す。一意に識別可能な「もの」がインターネット/クラウドに接続され、情報交換することにより相互に制御する仕組みである

hohoho_ho2005 2017/01/31

リンク

Sparkのデータ処理プロセスと処理性能のボトルネック

処理時間の増大という性能問題を解決するには、その問題が発生している箇所と処理過程を特定する必要があります。そのため、まずはSparkのデータ処理の概要を解説します（図1）。 Sparkでは、Map処理からReduce処理へ遷移する際に中間データを生成・出力します。その処理を「シャッフル」と呼びます。このとき、中間データはファイル出力されるため「シャッフルファイル」とも呼ばれます。図1の処理を順序に沿って解説します。 HDFSから処理対象の消費電力量データをメモリ上に読み出します。このとき、Sparkが管理する領域にデータを読み出します。読み出したデータをメモリ上で集計処理します。処理後、中間データ（シャッフルファイル）をファイル出力しますが、ディスクへ書き込む前にメモリ上のOSが管理するページキャッシュ領域に書き込みます。その後、中間データをまとめてディスクへ非同期に書き込みます。

hohoho_ho2005 2017/01/10

spark

リンク

SparkのWeb UIを調べてみた

SparkのWeb UIに記載されている項目の意味について（日本語で）まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース） Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載する予定。間違いを見つけたらコメントお願いします。m(__)m

hohoho_ho2005 2017/01/08

spark

リンク

Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -

- Apache Spark is an open-source cluster computing framework for large-scale data processing. It was originally developed at the University of California, Berkeley in 2009 and is used for distributed tasks like data mining, streaming and machine learning. - Spark utilizes in-memory computing to optimize performance. It keeps data in memory across tasks to allow for faster analytics compared to dis

hohoho_ho2005 2017/01/07

spark

リンク

「Spark MLlibでリコメンドエンジンを作った話」を話してきました - Qiita

技術的な話用いた技術は、 Spark(1.6 -> 2.0) MLlib EMR RedShift Finagle netlib-java ElastiCache (Memcached) あたりが挙げられます。手順としては、生ログをRedShiftで前処理してS3に保存 SparkがS3からデータを読みモデル生成モデルをS3にバイナリ出力推薦サーバがモデルを読み込み、リアルタイム推薦 or Cacheから読む結果が多少バラけるように独自ロジックを加えて推薦サーバの出力とする。という形になります。 Spark周りの動かし方やトラブルシューティングについてはここにメモしてあります。（この記事から他の記事へたくさんリンクが出ています。） http://qiita.com/uryyyyyyy/it ems/f8bb1c4a4137e896de7f 登壇してみての話この手の技術は前提知

hohoho_ho2005 2017/01/02

spark

リンク

概要 - Spark 2.0.2 ドキュメント日本語訳

ここから少し、楽天モバイルの宣伝になります。このサイトでアフィリエートや広告を貼るつもりは全然無かったのですが、 6月中に楽天モバイルの契約30件を取るか、船を降りるかするように言われています。回線の増設を考えている方、お子様に新しく携帯を持たせようと考えている方、下記リンク先で楽天にログイン後、楽天モバイルの各プランをご検討いただけないでしょうか。楽天モバイル紹介リンク Sparkの概要 Apache Sparkは高速で汎用的なクラスタコンピュータシステムです。Java, Scale, PythonおよびRの高レベルのAIPを提供し、一般的な実行グラフをサポートする最適化されたエンジンを提供します。SQLおよび構造データのためのSpark SQL、機械学習のためのMLlib、グラフ処理のためのGraphX およびSpark Streamingを含む高レベルのツールの充実したセッ

hohoho_ho2005 2017/01/02

spark

リンク

2016ー2017のApache Sparkに起こったこと／起こること | gihyo.jp

Sparkの2016年は、1月4日にバージョン1.6.0のリリースからスタートしましたが、なんといっても今年の目玉はバージョン2.0.0のリリースでした。2016年7月26日にリリースされ、この開発には2,000以上のパッチが投稿され、世界中から280人もの開発貢献者の参画があったと言われています。バージョン2.0ではアーキテクチャが抜本的に見直され、さらなる性能向上、さらなる使いやすさが実現しました。両バージョンについては現在もメンテナンスが続けられており、本稿執筆時点では1.6.3、2.0.2が最新リリースです。そして、12月28日にバージョン2.1がリリースされました。本稿では、2016年後半の中心だったバージョン2.0の特徴について、バージョン1.6以前も振り返りつつおさらいし、2017年にどのような取り組みがなされるかについてお伝えします。 Sparkの特徴のおさらい 2016

hohoho_ho2005 2017/01/02

spark

リンク

はてなブックマーク

タグ

関連タグで絞り込む (74)

sparkに関するhohoho_ho2005のブックマーク (370)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス