タグ

hadoopに関するdmizuno55のブックマーク (7)

  • 第12回 複数のプロセスにおける協調動作のための仕組み─コーディネーション | gihyo.jp

    はじめに 前回は、分散システム技術を基とする耐障害性のための仕組みとして、レプリケーションとロギングについて述べました。今回は、分散システムにおいて複数のプロセスが協調して動作するための仕組みであるコーディネーションについて、その概要を説明します。 コーディネーションとは 並列データ処理系におけるコーディネーションは、複数のプロセス間において、協調して動作をする、または、同意を取るための技術です。すなわち、コーディネーションを行うことにより、並列データ処理系における複数のプロセスが同じ目的(もしくは値)を共有し、各々がその目的のもとで何らかの処理を実行できるようになります。当該技術は、たとえば、複数のプロセスにおける状態やレプリカ間の値の一貫性を保つために用いられます。 コーディネーションにおいては、多くの場合、次のことを前提として議論されるため、特に明示的に言及しない限り、連載におい

    第12回 複数のプロセスにおける協調動作のための仕組み─コーディネーション | gihyo.jp
  • OS X + Docker Machine + Cloudera QuickStart Docker Image で Spark MLlib のお試し環境を構築する - 無印吉澤

    はじめに 動作環境 構築される環境 構築手順 Docker Toolboxのインストール default VM の初期設定 default VM のCPUコア、メモリ使用量の変更 Cloudera QuickStart Docker Image のダウンロード コンテナの起動 Cloudera Express の起動 Web UI の接続確認 Cloudera Manager からサービス起動 Spark Shell の起動 Spark MLlib を試す HDFS へのサンプルデータのアップロード サンプルデータの RDD への変換 KMeans のモデルの作成 生成されたモデルの確認 まとめ はじめに Cloudera は以前から、Hadoop の機能を簡単に試すための VM イメージを配布しています(Cloudera QuickStart VM のダウンロードページ)。配布されている

    OS X + Docker Machine + Cloudera QuickStart Docker Image で Spark MLlib のお試し環境を構築する - 無印吉澤
  • DockerでCloudera Managerを立ち上げる - Qiita

    Hadoop初心者のアメリカ在住Java女子です。 Clouderaが提供しているCloudera Quickstartのdocker imageを使ってCloudera Managerを立ち上げてみました。 動作環境 Mac OS Dockerインストール済み 手順 Cloudera Quickstart imageをインストール まずはターミナルから $ docker pull cloudera/quickstart:latest (結構長く待たされた・・・) Dockerイメージを立ち上げ ネットでよく見る手順書にはこのコマンドが載ってるけれども、 $ docker run --hostname=quickstart.cloudera \ --privileged=true -t -i cloudera/quickstart:latest \ /usr/bin/docker-quic

    DockerでCloudera Managerを立ち上げる - Qiita
  • 2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)

    Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)、Hadoopを40分で理解する) Hiveとは です。愛くるしい(笑)。見れば見るほど愛着がわいてきます(笑)。なお、こんな非売品&限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp

    2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)
  • LanguageManual UDF - Apache Hive - Apache Software Foundation

    When hive.cache.expr.evaluation is set to true (which is the default) a UDF can give incorrect results if it is nested in another UDF or a Hive function. This bug affects releases 0.12.0, 0.13.0, and 0.13.1. Release 0.14.0 fixed the bug (HIVE-7314). The problem relates to the UDF's implementation of the getDisplayString method, as discussed in the Hive user mailing list.

  • 改めてHive & HBase連携 – OpenGroove

    (追記)若干認識違いな部分があったので修正しました。 前回投稿で書いたように O’REILLYの「Hiveプログラミング」は、日語による包括的なHiveノウハウリソースとして最適と言えそう。Hive & HBase連携部分なども少ないながら17章 ストレージハンドラとNoSQL にてページが割かれているので、気になった点を引用させてもらう。 HiveのクエリをNoSQLデータベースに対して実行する場合、NoSQLシステムのオーバーヘッドがあるために、そのパフォーマンスはHDFS上の通常のHiveやMapReduceのジョブより低いものになります。その理由の中には、通常のHDFSへのアクセスが完全なシーケンシャルI/Oであるのに対して、サーバーへのソケット接続や、下位層の複数のファイルのマージといった処理があるということがあります。 (略) システム全体の中で、NoSQLデータベースをHa

  • 「ほかに解決策はない」:生みの親が語る「Hadoop 2.0」の可能性

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 分散並列処理プログラミングフレームワーク「Apache Hadoop」を中心にしたイベント「Hadoop Conference Japan 2014」が7月8日に開催された。今回で5回目となる同イベントには、HadoopでSQLクエリや機械学習などを高速に処理するための並列処理エンジン「Apache Spark」の主要開発者であるPatrick Wendell氏、Hadoopの産みの親であり、現在はHadoopディストリビューションベンダーであるClouderaのチーフアーキテクトを務めているDoug Cutting氏が参加し、基調講演に登壇した。 最新版となる「Hadoop 2.0」は2013年10月にリリース。Hadoopはバッチ処

    「ほかに解決策はない」:生みの親が語る「Hadoop 2.0」の可能性
  • 1