タグ

hdfsに関するBigFatCatのブックマーク (5)

  • DeNA流データエンジニアリングの極意

    Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-nioke…

    DeNA流データエンジニアリングの極意
  • Cloudera ManagerでHBaseの運用 - Qiita

    サイバーエージェントの秋葉原ラボで働いている鈴木といいます。 今回は、Cloudera Managerを使ったHBaseの運用の一部を紹介しようと思います。 はじめに 弊社ではHBaseの運用にCloudera Managerを使っています。 Cloudera Managerを使うことでクラスタの構築・管理が楽になるのはもちろんのこと、監視やトラブルシューティングも簡単になったりします。 既にCloudera Manager Advent Calendar 2015で紹介されているログ検索も便利ですし、 tsqueryというチャート生成専用のクエリ言語もかなり便利です。 今回はHBaseを運用する上で普段見ているチャートのtsqueryを紹介したいと思います。 tsqueryについて tsqueryはCloudera Manager内に蓄積されているメトリクスなどの時系列DBにアクセスでき

    Cloudera ManagerでHBaseの運用 - Qiita
  • 5分でできるHDFSクラスタ構築方法

    概要 HDFSをベースとして動くアプリケーションは数多くありますが、HDFSクラスタを構築するのは少々面倒な感じがします。 しかし、Cloudera Managerを使えば5分でHDFSクラスタを構築できてしまうのです。 今回はこのCloudera Managerを使ってLinux(CentOS6.5)4台に Hadoop(HDFS + YARN) Hive をインストールしていきたいと思います。 この記事を書いた時のCloudera Managerのバージョンは5.2.1です。 Cloudera Managerのインストール 全サーバ必要条件 selinuxが無効であること 各ホスト間でsshログイン可能であること 各ホスト同士がFQDNで参照可能であること まずはselinuxを無効にします。 vi /etc/sysconfig/selinux ~ #SELINUX=enforcing

    BigFatCat
    BigFatCat 2017/01/30
    Cloudera Manager使えば簡単にHDFSが構築できるらしい。
  • Cloudera | ハイブリッドデータカンパニー

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera | ハイブリッドデータカンパニー
    BigFatCat
    BigFatCat 2017/01/12
    sc.textFile("hdfs://sandbox.hortonworks.com:8020/tmp/yahoo_stocks.csv") ←HDFSに入れたデータをロードするにはschemeにhdfsを指定すればよいだけ。ということは、既にHDFSクラスタがあればそこにdata入れて使えばよい。
  • Spark 2.0の性能検証の結果とボトルネックの考察

    はじめに 前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境(システム構成、パラメータ)とその検証結果を解説します。 システム構成 データ分析システムの概要 データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。 ハードウェア構成 データ処理基盤は仮想サーバ3台、物理

    Spark 2.0の性能検証の結果とボトルネックの考察
  • 1