タグ

sparkに関するsbg3のブックマーク (6)

  • Apache SparkとApache DrillのSQL機能・性能比較 | Hadoop Times

    こんにちは。私はクリエーションラインの木内と申します。今回はApache SparkとApache Drillの機能・性能を比較し、想定される活用方法について書いてみることにします。 Apache Spark、Apache Drill誕生の背景 データベースの世界ではリレーショナルモデルが考案された1970年代から、構造化されたデータベースに対してクエリを実行し結果を取得するという作業が一般的なものでした。ユーザーは今でも、解析対象のデータを構造化・正規化し然るべきデータベースに投入することで有意なデータと見なし、諸々の解析を行っています。 現在ではほとんど全ての企業活動がコンピュータを使用して行われています。日々取り交わされる電子メールや、オフィス文書、画像、音声といったデータは企業の資産であり、そこから価値が取り出せるのであればより競争優位を確保することができるかもしれません。 少し乱

    Apache SparkとApache DrillのSQL機能・性能比較 | Hadoop Times
  • 神林節炸裂!Asakusa Frameworkは「分散」から「並列」へ (1/3)

    11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長 神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。 ビッグデータは既存のCRM、IoTはPoCレベル ノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。 イベントの後半で登壇したノーチラ

    神林節炸裂!Asakusa Frameworkは「分散」から「並列」へ (1/3)
  • Apache Sparkが今後ブレークする6つの理由 | readwrite.jp

    ゲスト執筆者のピーター・シュランプはビッグデータ分析プラットフォームのプロバイダ、Platforaの副社長である。 Apache Sparkはあっという間にビッグデータアナリティクスのコアテクノロジになった。しかしこの事は他の多くの技術でおこったよう、同じくあっという間にフェードアウトしてしまわないかという懸念もある。だが私は逆に、Sparkは始まったばかりだと信じている。 ここ数年で、Hadoopの爆発的普及とビッグデータが大きなものになったおかげでいくつかの事が明らかになった。まずHadoop Distributed ファイルシステム(HDFS)がデータのストレージとして適していること、そしてYARN(リソースの配備および管理)がビッグデータのフレームワークとして選ばれていることだ。 そして第三に、最も重要なことだろうがあらゆる問題に適した唯一つのフレームワークは無いということだ。マッ

    Apache Sparkが今後ブレークする6つの理由 | readwrite.jp
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    出典:ITpro 2014/8/4 (記事は執筆時の情報に基づいており、現在では異なる場合があります) オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるように

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
  • 「ほかに解決策はない」:生みの親が語る「Hadoop 2.0」の可能性

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 分散並列処理プログラミングフレームワーク「Apache Hadoop」を中心にしたイベント「Hadoop Conference Japan 2014」が7月8日に開催された。今回で5回目となる同イベントには、HadoopでSQLクエリや機械学習などを高速に処理するための並列処理エンジン「Apache Spark」の主要開発者であるPatrick Wendell氏、Hadoopの産みの親であり、現在はHadoopディストリビューションベンダーであるClouderaのチーフアーキテクトを務めているDoug Cutting氏が参加し、基調講演に登壇した。 最新版となる「Hadoop 2.0」は2013年10月にリリース。Hadoopはバッチ処

    「ほかに解決策はない」:生みの親が語る「Hadoop 2.0」の可能性
  • 1