[B! hadoop] BigFatCatのブックマーク

BigFatCat id:BigFatCat

hadoopに関するBigFatCatのブックマーク (8)

alluxioをさわってみた - Qiita
ちょっと気になった記事だったのでさわってみた。 http://www.nttdata.com/jp/ja/insights/trend_keyword/2016042101.html (Apache Sparkより100倍速い？？) 印象としてはHDFSをそのままインメモリにした感じ？ HDFSもRAID0にしてソフト上で冗長担保するみたいなイメージなので、インメモリでデータとんでも大丈夫ってことかな？最近メモリも安いしほんとに100倍早いなら実用的かも ※ amazon 計算で32GBが ¥16,500 = 1TBで ¥515,625 くらい ※ドキュメントとか読まない派でQuickStartしか読んでないので勘違いは許してくださいmm alluxio SetUp ローカルにSparkがいてsampleにSparkがあったのでSparkとつなげてみる http://www.alluxi
BigFatCat 2017/03/29
hadoopのインメモリ版?

alluxio

hadoop

spark
リンク
Spark 2.0の性能検証の結果とボトルネックの考察
はじめに前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境（システム構成、パラメータ）とその検証結果を解説します。システム構成データ分析システムの概要データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。本連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。ハードウェア構成データ処理基盤は仮想サーバ3台、物理
BigFatCat 2017/01/12
spark

hdfs

hadoop

hive
リンク
CM re:Growth Developers.IO Meetup 01 に参加してきた - ようへいの日々精進XP
はじめにあのブログのクラスメソッドさんが主催する AWS 勉強会に参加してきたビアバッシュ形式ということで沢山飲むつもりで参加したけどヱビスビール 2 本が限界だった以下、ヱビスビールの写真。こんだけ並ぶヱビスビールには圧巻。その二本しか飲めなかったのはヱビスビールを並べてくれたスタッフの方々にとても申し訳ないと思っている。資料発表資料発表資料については確認でき次第掲載させて頂く。 6 リージョン同時 75 万接続のメッセージ配信基盤を CloudFormation と Capistrano で CloudFormation と Serf で作る全自動インフラ Infrastructure as Code から Full Reproducible Infrastructure へ 6 リージョン同時 75 万接続のメッセージ配信基盤を 3 日で考えた話参考資料アドベント
BigFatCat 2013/12/12
Elastic MapReduce 高速なHadoop

hadoop
リンク
これから Hadoop を学ぶ人向け読書ガイド - 科学と非科学の迷宮
なんだかんだで Hadoop 周りの本も結構増えてきましたので下にまとめました。抜けてるのもあると思うので(特に和書)、なんかお薦めありましたらコメントください。追加します。タイプ別お薦め読書コース短期間で全部読むのは不可能なので、とりあえず簡単にお薦めの読書コースを紹介します。非技術者(営業や経営者など) 象本1章と徹底入門1章だけ読んどけばいいです。余裕があれば象本16章(ケーススタディ)。読んでる暇あったらその人件費で技術者にいいPC買ってあげてください。技術者(共通) 象本読まないとかありえないです。別に全部読む必要ないですが、とりあえず 1-10章ぐらいは目を通してください。それも時間的に難しいならせめて3章か4章ぐらいまで目を通してください。可能なら徹底入門と並行して読んでください。書き方の切り口が違う2つの書籍を読むことで理解が深まります。 Hadoop 技術
BigFatCat 2013/12/10
hadoop
リンク
MapReduce - naoyaのはてなダイアリー
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
BigFatCat 2010/05/12
hadoop

perl

naoya
リンク
Google App Engine上のベスト・プラクティス、その１: Datastore
Google App Engine上でアプリを作りはじめて約二ヶ月。いろいろと分かって来たこともあるので、自分へのメモも含めてまとめてみる。まずは、Datastoreの話から。なによりも大切なのはデータベースの設計あたりまえと言えばあたりまえの話だが、App Engine上でアプリを作る上でもっとも大切なこと（＝頭を使うべきところ）は、データベースの設計である。特にリレーショナル・データベース（RDB）上でのアプリ作りに慣れた人には、大きな「発想の転換」が必要なので、ここは注意が必要。特に絶対にやっては行けないのは、将来RDB上へ移行できるようにレイヤーを作って、その上にアプリを作る RDB上に作ったアプリをデータモデルを大幅に変更せずにApp Engine上に移植する RDBを前提に設計されたフレームワークをApp Engine上に載せて、その上にアプリを作るなど。App En
BigFatCat 2010/03/01
google app engine

hadoop
リンク
自作したHadoopのジョブを動かす - 研究メモ
2010-01-17 Hadoopのアプリケーションの種類に関して卒業研究用性能評価の設定 2010-01-16 FrontPage 2010-01-12 gnuplotメモ 2009-12-23 Job Scheduling for Multi-User MapReduce Clusters pukiwiki設定 2009-12-22 Gfarm_hadoop 2009-12-02 Sector/Sphere 2009-11-26 Hadoop Conferenceまとめ Winning a 60 second Dash with Yellow Elephant 2009-11-22 Hadoop のパラメータについて 2009-10-28 自作したHadoopのジョブを動かす 2009-10-20 Hadoop/antでビルドする HadoopのHDFSをマウント 2009-10-0
BigFatCat 2010/01/25
オライリーhadoop本p.24のサンプル。意味分からなかったので参考になりました。

hadoop

オライリー
リンク
Mac Java の複雑な階層構成のまとめと管理 ||| Apribase
元々の Mac OS X Leopard の特殊なディレクトリ階層に加えて、Sum Microsystems からは Mac 向け Java が提供されていないため Apple が Java を用意しているわけですが、これがさらに特殊な階層構成になっていました。
BigFatCat 2010/01/25
mac

java

hadoop
リンク
1