タグ

Hadoopに関するnobusueのブックマーク (212)

  • HadoopSupport - Cassandra Wiki

    Contents Overview MapReduce Pig Hive Oozie Cluster Configuration Troubleshooting Support Overview Hadoop integration was added way back in version 0.6 of Cassandra. It began with MapReduce support. Since then the support has matured significantly and now includes native support for Apache Pig and Apache Hive. Cassandra's Hadoop support implements the same interface as HDFS to achieve input data lo

    nobusue
    nobusue 2011/03/08
    0.6以降でHadoop対応が入った
  • Hadoop専用機「リンダ」を解剖

    NTTデータの「Lindacloud(リンダクラウド)」は、「Hadoop」に最適化したハードウエアを同社が自ら設計・製造したアプライアンスサーバーだ。機能をそぎ落として、低コストと低消費電力を追求したハードウエアは、大手クラウド事業者が使うサーバーによく似ている。Lindacloudが象徴する、サーバーの新潮流を探った。 Lindacloudが搭載するHadoopは、分散バッチ処理プログラムを開発するためのミドルウエアだ。複数のサーバーにデータを分散保存してバッチ処理を実行し、結果を集約するという機能を備える。 Lindacloudは、高さ42Uのラックに搭載した35台の専用サーバーユニットで構成する。合計で32個のプロセッサと、256Gバイトのメモリー、128T(テラ)バイトのハードディスクを搭載して、価格は800万円(図1)。インテグレーション費用も含まれていることを考えると、安価と

    Hadoop専用機「リンダ」を解剖
  • Hadoop使ってる?

    NTTデータのHadoopアプライアンス「Lindacloud for Hadoop」のプラットフォームとなる「Lindacloud」 米Googleの分散データ処理技術をオープンソースとして実装した「Hadoop」――。膨大なデータを高速に解析するツールとして桁違いの可能性を持ち、国内の一般企業でも利用が始まりました。 楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」などにHadoopを使用。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムなどにHadoopを採用しました。 システムインテグレーターはHadoop関連のツールやサービスを相次いで発表しています。Hadoopを企業情報システムに組み込みやすくなってきました。 Hadoopの導入事例 グーグル発「Hadoop」、日企業も利用へ リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡

    Hadoop使ってる?
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

    nobusue
    nobusue 2010/12/10
    サンプルコード
  • groovyとhadoopでHDFS上のパスがファイル/ディレクトリかどうかを調べる

    groovyとhadoopでHDFS上のパスがファイル/ディレクトリかどうかを調べるには、以下のコードを実行します。 import org.apache.hadoop.conf.* import org.apache.hadoop.fs.* fs = FileSystem.get( URI.create("hdfs://192.168.1.81:9000/"), new Configuration()) files = fs.listStatus(new Path("/tmp")) for( file in files ){ print "${file.path}" print ":dir?=${file.isDirectory()}" println ",file?=${file.isFile()}" } ※以下のjarを$GROOVY_HOME/libにコピー hadoop-commo

  • Pasang Bola Online | Judi Bola Tanpa Blokir

    <div class="at-above-post-homepage addthis_tool" data-url="http://hugjp.org/2021/07/salah-pilih-agen-sbobet-bisa-sebabkan-berbagai-kerugian/"></div>Sbobet tentunya menjadi salah satu server judi online paling diminati oleh orang-orang yang gemar bermain judi online. Sbobet online via sbobet mobile. Main Game Online Sbobet Mobile.

  • オープンソース分散システム「Hadoop」解析資料 - 株式会社プリファードインフラストラクチャー

    ">最新のニュース

  • Welcome to Apache Hadoop!

    Apache Hadoop プロジェクトでは、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースソフトウェアを開発しています。Hadoop には以下のサブプロジェクトがあります。 Hadoop Common: Hadoop のほかのサブプロジェクトをサポートする共通のユーティリティです。 Avro: 各種スクリプト言語に動的に組み込み可能なデータ直列化システムです。 Chukwa: 大規模分散システムを管理するためのデータ収集システムです。 HBase: 巨大テーブル用の構造化データストレージをサポートするスケーラブルな分散データベースです。 HDFS: アプリケーションデータに対して高いスループットでのアクセスを可能にする分散ファイルシステムです。 Hive: データ・サマライゼーションやアドホックなクエリー操作を可能にするデータウェアハウス・インフラストラクチャです

  • MapReduceとパラレルRDBでベンチマーク対決、勝者はなんとRDB!

    大量のデータを処理する手法として登場したMapReduce。クラウドに対応した分散処理の定番として話題に上ることが増えてきました。 MapReduceは、大量のデータを分割し、分割したデータを分散したノードに投げてノードごとに処理を実行、結果を集約して最終的な答えを求める、といった手法です。 しかしMapReduceが登場する以前から商用レベルで使われていた分散処理手法があります。データを分散したデータベースに格納し処理を行うパラレル・リレーショナルデータベース(パラレルRDB)がその1つです。 パラレルRDBは、データを複数のデータベースに分散して配置、データベースごとに処理を行い、結果を求める手法です。中央に共有メモリを配置するなどの方法で分散したデータベース同士の連携を行うことが一般的です。 ではパラレル・リレーショナルデータベースはMapReduceより遅いのか? 劣るのか? 両者

    MapReduceとパラレルRDBでベンチマーク対決、勝者はなんとRDB!
  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • Legacy Communities - IBM Community

    If you’re looking for a developerWorks forum — Don't panic! You are in the right place. You are here because specific IBM developerWorks forums, blogs and other Connections content have been decommissioned. This page will help you find the content you are looking for, get answers to your questions, and find a new community to call home. Where am I? You are on the IBM Community area, a collection o

  • Hadoop World NYC 参加記 - moratorium

    Hadoop World NYC 参加記 2009-10-07 (Wed) 10:03 Hadoop と言う訳でHadoop World NYC, 2009の参加記を書きます。 1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの番自体は400~500人の参加でした。 まずSystem Adminコースですが、大体以下のような内容でした。 MapReduceの基概念 ハードウェア/ネットワーク機器の選定ポイント OSやJavaなど、ソフトウェアでの注意点 Hadoop(Cloudera Distribution)のインストール方法 パラメーター/パフォーマンスチュー