タグ

hadoopに関するBigFatCatのブックマーク (8)

  • alluxioをさわってみた - Qiita

    ちょっと気になった記事だったのでさわってみた。 http://www.nttdata.com/jp/ja/insights/trend_keyword/2016042101.html (Apache Sparkより100倍速い??) 印象としてはHDFSをそのままインメモリにした感じ? HDFSもRAID0にしてソフト上で冗長担保するみたいなイメージなので、インメモリでデータとんでも大丈夫ってことかな? 最近メモリも安いしほんとに100倍早いなら実用的かも ※ amazon 計算で32GBが ¥16,500 = 1TBで ¥515,625 くらい ※ドキュメントとか読まない派でQuickStartしか読んでないので勘違いは許してくださいmm alluxio SetUp ローカルにSparkがいてsampleにSparkがあったのでSparkとつなげてみる http://www.alluxi

    alluxioをさわってみた - Qiita
    BigFatCat
    BigFatCat 2017/03/29
    hadoopのインメモリ版?
  • Spark 2.0の性能検証の結果とボトルネックの考察

    はじめに 前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境(システム構成、パラメータ)とその検証結果を解説します。 システム構成 データ分析システムの概要 データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。 ハードウェア構成 データ処理基盤は仮想サーバ3台、物理

    Spark 2.0の性能検証の結果とボトルネックの考察
  • CM re:Growth Developers.IO Meetup 01 に参加してきた - ようへいの日々精進XP

    はじめに あのブログのクラスメソッドさんが主催する AWS 勉強会に参加してきた ビアバッシュ形式ということで沢山飲むつもりで参加したけどヱビスビール 2 が限界だった 以下、ヱビスビールの写真。 こんだけ並ぶヱビスビールには圧巻。 その二しか飲めなかったのはヱビスビールを並べてくれたスタッフの方々にとても申し訳ないと思っている。 資料 発表資料 発表資料については確認でき次第掲載させて頂く。 6 リージョン同時 75 万接続のメッセージ配信基盤を CloudFormation と Capistrano で CloudFormation と Serf で作る全自動インフラ Infrastructure as Code から Full Reproducible Infrastructure へ 6 リージョン同時 75 万接続のメッセージ配信基盤を 3 日で考えた話 参考資料 アドベント

    CM re:Growth Developers.IO Meetup 01 に参加してきた - ようへいの日々精進XP
    BigFatCat
    BigFatCat 2013/12/12
    Elastic MapReduce 高速なHadoop
  • これから Hadoop を学ぶ人向け読書ガイド - 科学と非科学の迷宮

    なんだかんだで Hadoop 周りのも結構増えてきましたので下にまとめました。 抜けてるのもあると思うので(特に和書)、なんかお薦めありましたらコメントください。追加します。 タイプ別お薦め読書コース 短期間で全部読むのは不可能なので、とりあえず簡単にお薦めの読書コースを紹介します。 非技術者(営業や経営者など) 象1章と徹底入門1章だけ読んどけばいいです。余裕があれば象16章(ケーススタディ)。読んでる暇あったらその人件費で技術者にいいPC買ってあげてください。 技術者(共通) 象読まないとかありえないです。 別に全部読む必要ないですが、とりあえず 1-10章ぐらいは目を通してください。 それも時間的に難しいならせめて3章か4章ぐらいまで目を通してください。 可能なら徹底入門と並行して読んでください。書き方の切り口が違う2つの書籍を読むことで理解が深まります。 Hadoop 技術

    これから Hadoop を学ぶ人向け読書ガイド - 科学と非科学の迷宮
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • Google App Engine上のベスト・プラクティス、その1: Datastore

    Google App Engine上でアプリを作りはじめて約二ヶ月。いろいろと分かって来たこともあるので、自分へのメモも含めてまとめてみる。まずは、Datastoreの話から。 なによりも大切なのはデータベースの設計 あたりまえと言えばあたりまえの話だが、App Engine上でアプリを作る上でもっとも大切なこと(=頭を使うべきところ)は、データベースの設計である。特にリレーショナル・データベース(RDB)上でのアプリ作りに慣れた人には、大きな「発想の転換」が必要なので、ここは注意が必要。 特に絶対にやっては行けないのは、 将来RDB上へ移行できるようにレイヤーを作って、その上にアプリを作る RDB上に作ったアプリをデータモデルを大幅に変更せずにApp Engine上に移植する RDBを前提に設計されたフレームワークをApp Engine上に載せて、その上にアプリを作る など。App En

  • 自作したHadoopのジョブを動かす - 研究メモ

    2010-01-17 Hadoopのアプリケーションの種類に関して 卒業研究用性能評価の設定 2010-01-16 FrontPage 2010-01-12 gnuplotメモ 2009-12-23 Job Scheduling for Multi-User MapReduce Clusters pukiwiki設定 2009-12-22 Gfarm_hadoop 2009-12-02 Sector/Sphere 2009-11-26 Hadoop Conferenceまとめ Winning a 60 second Dash with Yellow Elephant 2009-11-22 Hadoop のパラメータについて 2009-10-28 自作したHadoopのジョブを動かす 2009-10-20 Hadoop/antでビルドする HadoopのHDFSをマウント 2009-10-0

    BigFatCat
    BigFatCat 2010/01/25
    オライリーhadoop本p.24のサンプル。意味分からなかったので参考になりました。
  • Mac Java の複雑な階層構成のまとめと管理 ||| Apribase

    元々の Mac OS X Leopard の特殊なディレクトリ階層に加えて、Sum Microsystems からは Mac 向け Java が提供されていないため AppleJava を用意しているわけですが、これがさらに特殊な階層構成になっていました。

    Mac Java の複雑な階層構成のまとめと管理 ||| Apribase
  • 1