タグ

classmethodとmapreduceに関するnabinnoのブックマーク (3)

  • Apache Tezの解説 | Hadoop Advent Calendar 2016 #07 | DevelopersIO

    こんにちは、小澤です。 この記事はHadoop Advent Calendar 7日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はHiveを使ってHadoop上のデータにSQLでアクセスする方法を紹介しました。 今回はTezについて書かせていただきたいと思います。 Tezとは Hadoop上で動くフレームワークの一種です。 YARNの登場によって、MapReduce以外の分散処理フレームワークもHadoop上で動くようになりました。 Tezはそれを利用してMapReduceよりも柔軟かつ効率的に分散処理を行うためのフレームワークとなっております。 ただし、TezはMapReduceとは異なり、直接書くというよりは、Hiv

    Apache Tezの解説 | Hadoop Advent Calendar 2016 #07 | DevelopersIO
  • ElixirのOTPでMapReduce処理を実装する | DevelopersIO

    Elixirには複数プロセスを使ってアプリケーションを簡単に実装するためのフレームワークであるOTPが用意されています。 OTPを使うとプロセス間のメッセージ通信やエラー時の再起動処理、プロセスの状態管理が非常に簡単に実装できます。 今回はOTPを使ってMapReduceのプログラムを実装してみます。 MapReduce Apache Lucene MapReduceの仕組みが利用されているソフトウェアをご紹介します。 LuceneはJavaで実装されている全文検索エンジンで、Elasticsearchの内部でも使われています。 このLuceneですが、MapReduceの仕組みを使って単語の出現場所のインデックスを生成しています(Luceneの作者は最初、Lispで実装を試したそうです)。 今回はこのMapReduceで文書のインデックスを生成する処理をElixirで実装してみます。 (

    ElixirのOTPでMapReduce処理を実装する | DevelopersIO
  • [Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO

    はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transformations」と「Actions」です。「Transformations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD

    [Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO
  • 1