タグ

Sparkに関するsaitokoichiのブックマーク (4)

  • Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

    Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! Hadoopは処理能力の拡張性・安定性が高い Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。 Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。 また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応す

    Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!
  • 「Spark」と機械学習で匠の技を再現、12日前に機器障害を検知し予知保全に活用

    サーバーのログデータから異常を検知し、機器が故障する前に対策を打つ予知保全は、これまで熟練技術者のノウハウによって実現していることが多かった。最近では、故障前の異常検知に機械学習を活用しようという動きが出ている。 ユニアデックスも機械学習を使った予知保全の実現を目指すベンダーの一つだ。同社は数年前から中核事業となる保守運用サービス「統合システムマネジメントサービス IP&A」の基盤刷新に取り組んでいる。顧客からの要望に応える目玉機能が機械学習を使った機器障害の予知保全だ。 IP&Aでは従来、熟練技術者がアプリケーションサーバーやデータベースサーバーから収集したログを分析していた。熟練技術者はログデータから正常時の特性を分析し、正常時と異なるデータ特性をサーバー障害の予兆として検知する。故障前に異常に対処することで安定稼働を実現していた。 ただし、熟練技術者は数が限られるため、機器障害の予知

  • SAP、Hadoopデータ分析向けインメモリクエリエンジン提供--Sparkを拡張

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます SAPジャパンは11月5日、オープンソースソフトウェア(OSS)の分散並列処理プログラミングフレームワーク「Apache Hadoop」にあるデータの分析を効率化できるというインメモリクエリエンジン「SAP HANA Vora」の提供を開始した。モノのインターネット(Internet of Things:IoT)の活用や分析も効率化できるとメリットを説明している。 HANA Voraは、OSSのデータ処理フレームワーク「Apache Spark」を拡張して活用。Hadoop内にあるデータなどさまざまソースからの情報と、インメモリデータベース「SAP HANA」で管理されたトランザクションデータを透過的に活用できるという。 SAPのインメ

    SAP、Hadoopデータ分析向けインメモリクエリエンジン提供--Sparkを拡張
  • ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 | IT Leaders

    IT Leaders トップ > テクノロジー一覧 > ビッグデータ > 河原潤のITストリーム > ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 ビッグデータ ビッグデータ記事一覧へ [河原潤のITストリーム] ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 2015年7月8日(水)河原 潤(IT Leaders編集部) リスト ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言する

    ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 | IT Leaders
  • 1