タグ

hadoopに関するkma83のブックマーク (3)

  • Running TeraSort MapReduce Benchmark – All Help & Support

    Please be advised our License Portal will be undergoing maintenance between March 15 10:30pm PST - March 16th 9:00am PST during which time users may experience intermittent performance issues. We apologize for the inconvenience. Please be advised that the Broadcom ERP system will be undergoing maintenance between March 28 7pm PST - Apr 1 7pm PST which will impact all new customer accounts created

    Running TeraSort MapReduce Benchmark – All Help & Support
  • VirtualBoxとCDH5でお手軽Apache Spark検証環境の構築 - データサイエ「ソ」ティストは語る

    ということで、実際には1台のコンピュータ上なうえ、仮想化のオーバーヘッドもあるので「分散並列」で「高速」な処理はできないのだけど、動作検証ができる環境の作り方。 前提 仮想マシンホスト CPU: Intel Core i7 4770(8コア) メモリ: 24GB OS: Windows 7 Professional VirtualBox: 4.3.10 r93012 ゲストOS: CentOS 6.5 64bit もっとも、上記の環境はあくまで手元がそうだから、というだけで、VirtualBoxは最新版をインストールすればよいし、ゲストOSもCDHがインストールできるならUbuntuでもSLES(Suse)でもなんでもよい。 VirtualBoxで仮想マシンを作成 CDH5*1をインストールし、Sparkを動かすための仮想マシンを作る。CPU4コア、メモリ8GBを割り振る。ディスクは80G

    VirtualBoxとCDH5でお手軽Apache Spark検証環境の構築 - データサイエ「ソ」ティストは語る
  • 分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

    分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ
    kma83
    kma83 2015/05/27
    キャスレーコンサルティングの人がHadoopとSparkの入門記事を書いている
  • 1