タグ

hadoopに関するikasam_aのブックマーク (5)

  • Perl から Hadoop と連携したテストをしてみる - Articles Advent Calendar 2011 Test

    はじめに はじめまして。xaicron さんに誘われて advent calendar に挑戦してみることにしました yayohei です。お手柔らかにお願いします。 今日は、テストを行う際に作ったオレオレテスト Module の Test::HadoopSingleNode を紹介したいと思います。 データ増による課題 データ量の増加に伴ってくるとDatabaseからデータを取り出す処理が重すぎて処理が期待した時間に終わらないということが起きることもあると思います。 そこで処理を分割したり並列化したりして解決しようとするわけですが、最近流行の汎用的な分散処理基盤としてApache Hadoopがあります。 Apache Hadoopとは、”Apache Hadoopは大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている。Hadoo

    Perl から Hadoop と連携したテストをしてみる - Articles Advent Calendar 2011 Test
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 - (゚∀゚)o彡 sasata299's blog

    2009年11月15日00:03 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 Hadoop のことをもっと知るために、Cloudera を使って Hadoop 環境を整えてみようと思います。Cloudera のインストールガイド を参考に進めてみます。OS は CentOS 5.2 です。 Cloudera's Distribution for Hadoop (CDH) まず、yum のリポジトリに cloudera-stable.repos と cloudera-testing.repos を追加します。これで yum から Hadoop のインストールが出来るようになります。便利ですね〜。 ちなみに、cloudera-stable の方は Hadoop-0.18 が、cloudera-testing の方は Hadoo

  • Hadoop Conference Japan 2009 に参加してきました! - (゚∀゚)o彡 sasata299's blog

    2009年11月14日08:26 Hadoop Hadoop Conference Japan 2009 に参加してきました! 最近人気が出てきている、ゾウのマークでおなじみの Hadoop 。日、日で一回目の Hadoop カンファレンスである Hadoop Conrefence Japan 2009 が開催されました。そこで、最近 Hadoop を使っているものとして「これは参加しないとっ!」ということで参加。そのときの内容を簡単にまとめます。 Hadoop入門 PFI の西川さんによる、そもそも Hadoop とは何なのか?何故必要なのか?という話でした。Hadoop とは何か?についてはこの辺を見ていただくとして Hadoop、hBaseで構築する大規模分散データ処理システム(1/2):CodeZine Hadoop、hBaseで構築する大規模分散データ処理システム(2/2):

  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • 1