Amazon Web Services ブログ Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティス ビッグデータの世界における一般的なユースケースは、さまざまなデータソースからの大量のデータにおける抽出/変換 (ET) とデータ分析の実行です。多くの場合、この後でデータを分析してインサイトを取得します。このような大量のデータを処理するための最も人気のあるクラウドベースソリューションのひとつが Amazon EMR です。 Amazon EMR は、AWS での Apache Hadoop および Apache Spark などのビッグデータフレームワークの実行をシンプル化するマネージドクラスタープラットフォームです。Amazon EMR は、組織が複数のインスタンスを持つクラスターをほんの数分でスピンアップすることを可能にし
Cloudera、AWS上でPaaS「Cloudera Altus」提供を発表。ビッグデータの分析基盤をサービスとして提供 先月4月28日にニューヨーク証券取引所に上場したばかりのClouderaは、クラウドサービス「Cloudera Altus」を発表しました。 これまで主要なHadoop/Sparkのディストリビューションベンダーとして知られてきた同社によるクラウドサービスの提供開始は、同社にとって新たなビジネス展開です。 Cloudera Altusは、下記のようにAWSのうえに構築されたSpark/MapReduce2/Hiveを提供するクラウドサービス、いわゆるPlatform as a Service(PaaS)の一種で、ビッグデータの分析など実行する基盤機能をサービスとして提供します。 ユーザーはクラスタの管理や運用の手間をかけることなく、そのうえで実行するアプリケーションの
原著者:Vartika Singh 原文:Deep Learning Frameworks on CDH and Cloudera Data Science Workbench 訳:有賀 「ビッグデータ」の台頭により、機械学習はずっと簡単になりました。少量のデータだけを観察した後に新しいデータを一般化する、統計的推定の負担が大幅に軽減されたためです。典型的な機械学習タスクのゴールは、観測データを説明する変動要因を分離するように特徴を設計することです。 しかし、多くの実世界の人工知能アプリケーションの難しさの主な原因は、変動要因の多くが観察できるすべてのデータに影響を与えることです。 ディープラーニングは、より単純な表現を導入することによって、表現学習を通してこの中心的な問題を解決します。 企業や研究者は、現在および将来のテクノロジーの進化に影響を及ぼすために、ますます多くのデータを分析して
Spark is quickly becoming the most popular framework in the MapReduce family. With better performance and much better APIs - it's easier than ever to perform the actual data wrangling; But as always - the challenges of operating, verifying and optimizing your application over time are much greater than the initial setup - and all the more so with distributes systems. In Kenshoo, we've used and dev
以前、Dist-kerasをDockerに載せてスケーラブルなディープラーニングを作ってみました。 http://qiita.com/cvusk/items/3e6c3bade8c0e1c0d9bf 当時の反省点はパフォーマンスが出なかったことですが、よく見直したらパラメータの設定が間違っていたようです。 そこで反省がてら、いろいろ試してみました。 前回までのあらすじ Dist-Keras自体の説明は以前の投稿をご参照いただきたいのですが、要はSparkクラスター上で動作するKerasです。 私はこれをDockerイメージにして、スケールアウトを簡単にできるようにしてみました。 なお、DockerfileはGitHubで公開しています。 https://github.com/shibuiwilliam/distkeras-docker 今回やること 今回はDist-Keras on Doc
Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。 Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elastic こちらを使うことで、Apache Sparkが提供するAPIをElasticsearchで使うことができるようになるみたいですね。内部的には、elasticsearch-hadoopに依存している模様。 日本語記事もあるようです。 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社 で、何をするかですが、まあ…Spark StreamingとTwitterですかね。今回は、以下のテーマでやってみることにしました。
はじめに 前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。 この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。 システムの詳細構成 マシン構成とマシンスペック 評価に向けたマシンの初期構成を図1に示します。本システムは以下のノードから構成されます。 センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして
はじめに 前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境(システム構成、パラメータ)とその検証結果を解説します。 システム構成 データ分析システムの概要 データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。本連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。 ハードウェア構成 データ処理基盤は仮想サーバ3台、物理
The tech layoff wave is still going strong in 2024. Following significant workforce reductions in 2022 and 2023, this year has already seen 60,000 job cuts across 254 companies, according to independent layoffs tracker Layoffs.fyi. Companies like Tesla, Amazon, Google, TikTok, Snap and Microsoft have conducted sizable layoffs in the…
どうも,実は今年から開発チームにjoinしていた中川です.可愛い犬の写真がなかったので,可愛いマスコットの画像を貼っておきます. 最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました.これはつまり,それだけ大量のデータをなんとか処理したいという要望があるからだと思います.しかし当たり前ですが,MapReduceは銀の弾丸ではありません. ということで,最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について,社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います. Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです.長いのでBSPと書きます.さて,グラフから最短経路を求める時,MapReduceは使えるでしょうか?このような論文が出るくらいですから出来ないことはあ
今月も無事、Spark project 勉強会 #03 を終えることが出来ました。今回 100 名参加ということで、もう本当に色々スパークしていたような気がします。来月もスパーク!告知は 公式ブログ をチェックして下さいね。 以下、僕の発表資料です。 Spark project 勉強会 #03 Keynote (近況報告)http://www.be-interactive.org/works/20080930/keynote.pdf マルチプレイ Flash ゲームのつくりかたhttp://www.be-interactive.org/works/20080930/be-lt02-multiplay.pdf あ、ちなみにこの度、二十歳の誕生日を迎えまして、勉強会でも (すいません) 、沢山の方に祝って頂き、本当にありがとうございました。20 代も三度の飯より ActionScrip
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く