This website is coming soon! Build your website for free on Sav.com. Domains on Sav come with free Privacy Protection, DNS, SSL, and More.
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoopソースコードリーディング 第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング 第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶 今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれれば いつもの会場だと途中からピザとお酒だが、今回の会場は飲食禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねw Tez Internals (@oza_x86 さん) @oza_x86 さんからはTez Internalsということで、S
ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した(発表資料)。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。 同社は2013年までの6年間ほど、MapReduceにリアルタイム処理エンジンの「Storm」を組み合わせたラムダアーキテクチャを採用してきたが、「開発やデプロイ、サポートなどの面で、次第に複雑さが増してきたため、より良い技術を探した結果、Sparkを見つけ、採用することにした」(同社)という。 Stratioは、通信事業者のスペインTelefonicaやホテル事業を手掛けるスペインNH Hotelsといった企業に向けて、ビッグデータ分析基盤を提供して
オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向
米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日(米国時間)に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる(関連記事:NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入)。 Sparkは、もともと米Universi
あらゆる業界の組織が Cloudera を活用し、意思決定のあり方を根本から変革するとともに、収益の向上、脅威対策、人命保護などを実現しています。
Sparkプロジェクトがついにトップレベルプロジェクトに昇格。既に大手企業が採用に動く、大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークだ。 Apache Software Foundation(ASF)は2月27日、大規模データの処理や分析に使われるオープンソースの高速エンジン「Apache Spark」がトップレベルプロジェクト(TLP)に昇格したと発表した。 Apache Sparkは大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークで、その速度や使いやすさを特徴とする。メモリ内でApache Hadoop MapReduceに比べて最大100倍の速度でプログラムを実行できるとしている。また、Java、Python、Scalaを使ってアプリケーションが開発できるAPIも提供している。 この他、SQLクエリのフロントエンドとして
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く