タグ

Hadoopに関するmoon_croixのブックマーク (10)

  • java 初心者が hadoop 開発できるようになるまで何を勉強したらいいですか? - HHTQA

    Markdownの基礎 *斜体*または_italic_ **または__bold__太字 リンク:[テキスト](http://url.com/ "タイトル") イメージ?![alt テキスト](/path/img.jpg "タイトル") 番号付きリスト: 1. Foo 2. Bar スペース二つだけの行は空行となります。 基的なHTMLタグもサポートされています Markdownについての詳しい情報

  • [3]SQLライクに分散処理できるHive

    オープンソースの分散処理フレームワーク「Hadoop MapReduce」は、大容量データを迅速に処理したいケースで威力を発揮します。そのMapReduceをより使いやすくするためのツールが「Pig」と「Hive」です。今回は、Hiveを“体感”する方法を解説します。 前回は、大量のデータを高速に処理するための分散処理フレームワーク「Hadoop MapReduce」(以下、MapReduceと表記)を、簡単に扱えるようにするオープンソースソフトウエア(OSS)として「Pig」を紹介しました。今回登場する「Hive」は、米Facebook社で開発された、Hadoop上にデータウェアハウス(DWH)を構築するための基盤ソフトです。2008年12月に正式にHadoopプロジェクトに寄贈され、Pigと同様にHadoopを補完するサブプロジェクトの1つとして開発が進んでいます。 米Yahoo!社主

    [3]SQLライクに分散処理できるHive
  • Amazon Elastic MapReduceの使い方─Hadoopより手軽にはじめる大規模計算 記事一覧 | gihyo.jp

    第8回Amazon Elastic MapReduceのパフォーマンスをモニタリングする 小林隆 2011-05-12

    Amazon Elastic MapReduceの使い方─Hadoopより手軽にはじめる大規模計算 記事一覧 | gihyo.jp
  • Hadoopをインストールしよう

    Hadoopを動かすには、少なくとも1台のLinuxマシンが必要になります。実際に効果を得るためには、巨大なデータと、物理的に多数のPCを用意する必要があります。 Hadoopには3つの動作モードがあり、どのモードを動かすかによって必要な環境が異なります(表1)。記事では、1台のマシン上でHadoopの各デーモンを起動する「疑似分散モード」を動かし、Hadoopの動作を確認します。 Linux環境の準備 まず最初に、Linuxが動作する環境を準備してください。もし古いPCなど、現在使っていないPCがあれば、そこにインストールすればいいでしょう。そのような余ったPCが無ければWindowsマシン上の仮想化ソフトで、Linuxを使うという方法もあります。 Linuxのインストールは極めて簡単です。Linuxをこれまでまったく触れたことがない人でも、GUIの操作で簡単にインストールできます。L

    Hadoopをインストールしよう
  • Hadoopって何がすごいの

    Hadoopは、普及品のPCサーバーを多数つなげて、莫大な情報を処理できるようにしたオープンソース・ソフトウエアです。Yahoo!やFacebookなどのWebサービスの開発者が多数、Hadoopの開発に参加していて、これらの企業によって実際に活用されています。 連載ではまず、いま熱い視線を集めているHadoopを実際に触っていくことで、Webサービスを支えている「大規模データ処理」を体験していきます。 まず最初に、Hadoopとは何か、何が「うれしい」のか、を説明します。それには、「スケールアウト」という言葉の意味を知っておく必要があります。Hadoopのメリットは、スケールアウトの問題点を克服しているところにあるからです。 スケールアップとスケールアウト あなたが、企業のWebサーバーの管理者だったとしましょう。 サーバーを立ち上げた当初は、Webサイトの訪問者も少なく、1台のPC

    Hadoopって何がすごいの
  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
  • Hadoop、セキュリティ強化でKerberos実装中

    Hadoopには現在、企業などで利用する際にはセキュリティ面での不安があり、そのための改良に取り組んでいます。Yahoo!のHadoop Developmentチームに所属するOwen O'Malley氏による、現在どのような仕組みでHadoopのセキュリティを強化しようとしているのかを説明するプレゼンテーションが「Hadoop User Group March Meeting Recap」のページで公開されています。 Kerberosでシングルサインオンを実現 プレゼンテーションの主なポイントを紹介します。 今回の主たる目的は、「認証されていないユーザーがHDFSにアクセスできないようにすること」となっています。 現在のHadoopには、NameNodeやJobTracker、DataNodeなどでのユーザー認証がないことがセキュリティ上の課題になっていると指摘。

    Hadoop、セキュリティ強化でKerberos実装中
  • 1