タグ

関連タグで絞り込む (242)

タグの絞り込みを解除

hadoopに関するwasaiのブックマーク (271)

  • 第15回 大規模データの新たな価値を生み出すHadoop(構築編)

    今回は、4台のサーバーからなるHadoopクラスタの構築手順を紹介します。10台程度までは、そのまま計算ノードを増やすことができますので、格活用に向けた実験を始めるのに最適な構成です。 「Hadoopは安価なコモディティ・サーバーを使用する」と説明されることがありますが、これは、あくまで標準的なx86サーバーを使用するという意味です。大量のデータを高速に処理するには、それなりのスペックが必要で、Hadoopのデフォルト設定では、8コアのCPUと8GBのメモリーを搭載したサーバーが想定されています。 Hadoopの導入手順 ここでは、図1の4台のサーバーを使用します。ホストネームは、管理ノードがhdpmgmt01、計算ノードがhdpnode01~03です。それぞれ、4コアのCPUと4GBのメモリーを搭載したサーバーとします。異なるスペックのサーバーの場合は、後述の設定パラメータを変更してく

    第15回 大規模データの新たな価値を生み出すHadoop(構築編)
    wasai
    wasai 2010/09/16
    Hadoopサーバ構築例
  • NoSQLについて知っておくべき10の事柄

    TechRebublicに「10 things you should know about NoSQL databases」(NoSQLデータベースについて知っておくべき10の事柄)という記事が掲載されています。NoSQLデータベースについての現状がよくまとまっている内容でしたので、見出しとポイントをまとめて紹介したいと思います。 10の事柄は前半と後半の2つに分かれていて、前半の5つではNoSQLの利点について説明されており、後半の5つは課題について説明されています。原文はそれなりに長い説明がされているので、詳しくは原文をぜひ見てみてください。以下はそれを1行程度に要約したものです。 5つのNoSQLの利点 Five advantages of NoSQL 1:Elastic scaling (弾力性のあるスケーラビリティ) NoSQLデータベースでは、ノードの追加による拡張性に柔軟に対

    NoSQLについて知っておくべき10の事柄
    wasai
    wasai 2010/09/09
    今のところ使用していないが、これから増えていくんだろうなぁ…
  • Hadoop install - kotaroito's notes

    Hadoopを試してみたいので、手元にインストールしてみる。 環境はCentOS release 4.7。 jdk6のインストール http://java.sun.com/javase/downloads/widget/jdk6.jspからjdk-6u20-linux-i586.rpm.binをダウンロードしておく sudo su cd /usr/local/src chmod 744 jdk-6u20-linux-i586.rpm.bin ./jdk-6u20-linux-i586.rpm.bin で、規約を見てyes。 環境変数を設定。 export JAVA_HOME=/usr/java/jdk1.6.0_20 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$

    Hadoop install - kotaroito's notes
    wasai
    wasai 2010/09/08
    インストール方法がよくまとまっているのでチェック
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
    wasai
    wasai 2010/08/27
    Hadoop、たしかに検索は劇的に早くなると思うが、コストは安くなるのか?
  • 第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)

    「Hadoop」は、米Google社が考案した分散データ処理技術MapReduce」をオープンソース・ソフトウエアで再実装したものです。Web系企業では、ユーザーのアクセスから得られる膨大なデータを解析するツールとして定着が進んでいます。最近ではWeb系以外の一般企業でもHadoopの活用が検討されてきています。 今回は、企業システムでHadoopを利用する意義と、ペタバイト・クラスのデータ処理を実現するHadoopの実装を解説します。 Google論文の衝撃 HadoopやMapReduceは「安価なサーバーで大量のデータを高速処理」「バッチの処理時間が劇的に短縮」などと紹介されています。とても高度な技術ととらえている方もいるかもしれませんが、実はそれほど複雑なものではありません。 MapReduceは、Googleが2004年に論文(http://labs.google.com/pa

    第14回 大規模データの新たな価値を生み出す「Hadoop」(解説編)
    wasai
    wasai 2010/08/25
    いまだに理解ができていない部分ではあるので、あとでじっくり読む
  • 米Yahoo!「Hadoop with Security」「Oozie」をオープンソースで公開 | gihyo.jp

    濃縮還元オレンジニュース 米Yahoo!「Hadoop with Security」「Oozie」をオープンソースで公開 2010年6月30日、米Yahoo! は2つのHadoop関連プロダクトをオープンソースとして公開しました。一つめは「Hadoop with Security」で、その名前のとおりHadoopにセキュリティ機構を組み込んだものです。もう一つは「Oozie」という名前で、Hadoop上で動くワークフローエンジンです。 Hadoop with Securityは、今まで外部からのデータアクセスなどセキュリティにおいて弱い面があったHadoopに対し、ケルベロス認証によるセキュリティ機構を組み込んで権限が与えられていないユーザからのアクセスからデータを保護したり、Audit(監査)ロギングのしくみを設けたりしているものです。 Oozieは、(⁠図1)に示すようなMapRedu

    米Yahoo!「Hadoop with Security」「Oozie」をオープンソースで公開 | gihyo.jp
    wasai
    wasai 2010/08/24
    先日のHadoopセミナーでもあった話、図がまとまっているのでチェック
  • 見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop(ハドゥープ)は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。 このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp
    wasai
    wasai 2010/08/11
    2回目は参加してました~、しかしHadoop、人気あるなぁ
  • Hadoop Hack Night Vol. 2 … 技術評論社

    たくさんのお申し込みありがとうございました。 お申し込み期間:7月21日(水)~7月28日(水) 7月25日(日) 23時59分 お申し込みが早くも100名を超えたため,予定を切り上げて 25日23時59分で終了いたします。 お申し込み後,抽選となります。 プログラム 18:30 開場 19:00~19:05 オープニング 19:05~19:35 [オープニングセッション(30分)]Yahoo! JAPANにおけるHadoop利用について(仮) 講演者: 吉田 一星 氏,古宮 陽明 氏(ヤフー株式会社) 19:35~20:05 [メインセッション(30分)]新たな情報インフラとしてのHadoopの活用(仮) Hadoopがいま注目されている背景には,Hadoopが備えている「スケール・アウト性」「スループット重視」「ロバスト性」という特徴が,情報爆発時代に必要とされている新たなインフラとし

    wasai
    wasai 2010/07/28
    これから使うことになりそうなので、勉強で参加予定(確定) B!
  • NTTデータ、OSS分散処理基盤「Hadoop」の構築、運用ソリューションを提供開始

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます NTTデータは7月1日、同社のクラウドサービス「BizXaaS」(ビズエクサース)の「クラウド構築サービス」のラインアップとして「Hadoop構築・運用ソリューション」の提供を開始した。 オープンソースの分散処理基盤ソフトウェアである「Hadoop」は、大規模データを多数のサーバに分散して蓄積するとともに、大量かつ複雑な計算を並列処理させて、データを高速に処理できるもの。従来、分散処理を活用したシステムを構築するためには、ソフトウェアの開発者側に高度なノウハウが必要とされていたが、Hadoopでは、MapReduceフレームワークを利用することで、個々の分散制御を意識することなく分散処理のシステムを構築できる。行動情報、センサ情報やライ

    NTTデータ、OSS分散処理基盤「Hadoop」の構築、運用ソリューションを提供開始
    wasai
    wasai 2010/07/03
    Hadoop構築・運用ソリューションは気になる。
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
    wasai
    wasai 2010/06/16
    Hadoopはセミナーで聞いてから非常に気になっています。
  • 大量データのバッチ処理を高速化するHadoop

    Hadoopはどのように活用されている? Hadoopプロジェクトは、オープンソースのテキスト検索エンジンLuceneと、Luceneを利用したWeb検索エンジンNutchの中心的な開発者、Doug Cutting氏らによって2006年に立ち上げられました。彼らは、米Googleが発表した論文のアイディアをもとに、Nutchを数十億のWebページに対応させる取り組みを始めました。この動きに米Yahoo!が興味を持ち、Nutchから分散バッチ処理システムとして汎用的に利用できる部分を切り離して、独立したHadoopプロジェクトとして立ち上がりました。 このような経緯から、米Yahoo!はHadoopの最大のユーザーとなっており、1万コアを超える規模のHadoopクラスタによって検索インデックスが実際に作られていることが報告されています。しかしながら、現在では米Yahoo!以外の多数の企業にも

    wasai
    wasai 2010/06/06
    いつかは手をつける必要がある技術ですね