タグ

Hadoopに関するm_shige1979のブックマーク (4)

  • Apache Spark の紹介(前半:Sparkのキホン)

    第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料 『Apache Sparkのご紹介』(前半:Sparkのキホン) NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 土橋 昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less

    Apache Spark の紹介(前半:Sparkのキホン)
  • フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

    はじめに Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。 RDBMSからデータをHadoopにインポートする SQLを使って、大規模データを高速に分析する アクセスログなどの大量の非構造化データを分析する 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う 大量のデータを全文検索できるようにする これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化

    フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する

    ビッグデータの申し子のように騒がれた「Hadoop」。以前ほどメディアを騒がせてはおらず、それほど広範囲に普及したようにも思えないものの、いまだ注目されるにふさわしい存在なのは間違いありません。しかし、今日の、あるいはこれからのHadoopがどのように進化しているのかを知れば、Hadoopを諦めていた方々も再度注目しようと思われるのではないでしょうか。 そもそもHadoopとは……? の禅問答っぽさ 突然ですが、「Hadoopとは何ですか?」と説明を求められたら、皆さんならどう答えますか? Q.「Hadoopとは何ですか?」 Ans. 複数のサーバーで構成され、MapReduceと呼ばれる仕組みで分散処理を行う環境であること データも共有ストレージではなく、各サーバーの内蔵ディスクに分散して格納されること HDFSと呼ばれる独自のファイルシステムがあり、データの分散については自動的に行われ

    Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
  • 1