[B! hadoop] kma83のブックマーク

kma83 id:kma83

hadoopに関するkma83のブックマーク (3)

Running TeraSort MapReduce Benchmark – All Help & Support
Please be advised our License Portal will be undergoing maintenance between March 15 10:30pm PST - March 16th 9:00am PST during which time users may experience intermittent performance issues. We apologize for the inconvenience. Please be advised that the Broadcom ERP system will be undergoing maintenance between March 28 7pm PST - Apr 1 7pm PST which will impact all new customer accounts created
kma83 2016/01/26
yarn

hadoop

spark
リンク
VirtualBoxとCDH5でお手軽Apache Spark検証環境の構築 - データサイエ「ソ」ティストは語る
ということで、実際には1台のコンピュータ上なうえ、仮想化のオーバーヘッドもあるので「分散並列」で「高速」な処理はできないのだけど、動作検証ができる環境の作り方。前提仮想マシンホスト CPU: Intel Core i7 4770（8コア）メモリ: 24GB OS: Windows 7 Professional VirtualBox: 4.3.10 r93012 ゲストOS: CentOS 6.5 64bit もっとも、上記の環境はあくまで手元がそうだから、というだけで、VirtualBoxは最新版をインストールすればよいし、ゲストOSもCDHがインストールできるならUbuntuでもSLES（Suse）でもなんでもよい。 VirtualBoxで仮想マシンを作成 CDH5*1をインストールし、Sparkを動かすための仮想マシンを作る。CPU4コア、メモリ8GBを割り振る。ディスクは80G
kma83 2015/05/28
Spark

hadoop
リンク
分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
kma83 2015/05/27
キャスレーコンサルティングの人がHadoopとSparkの入門記事を書いている

spark

hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx