タグ

hadoopに関するokinakaのブックマーク (73)

  • 第7回 Amazon Elastic MapReduceのパフォーマンスを引き出すためのHadoopの基礎知識 | gihyo.jp

    Amazon Elastic Mapreduce(EMR)は、Hadoop環境を構築することなくMapReduceが使える、PaaSに近いものです。しかし、中身はAmazonが独自にカスタマイズしているHadoopなので、一般的なHadoopのチューニング手法をそのまま適用できない場合があったりします。 前回の予告とは若干異なりますが、今回はいったんEMRを離れてHadoopの基礎を説明します。順番的にも先にこちらを説明したほうが内部のしくみもわかってより理解しやすいと思います。 HDFSではサイズが大きいファイルを扱うほうが効率的 あえて今回まで触れませんでしたが、Hadoopとは言わずと知れたGoogleの論文をもとに作成されたGFS(Google File System)とMapReduceのオープンソースのクローンです。GFSはHDFS(Hadoop Distributed Fil

    第7回 Amazon Elastic MapReduceのパフォーマンスを引き出すためのHadoopの基礎知識 | gihyo.jp
  • 第4回 再利用可能なモジュールを切り出す

    第4回では、前回解説した上位のDAGをさらに下位に分解していく「プロセスの詳細化」と、「データモデルの設計」について解説する。 まずプロセスの詳細化について述べよう。上位のDAGから、下位のDAGへ、適切な粒度で切り分けて行く作業である。具体的には第3回で切り分けたジョブフローを、再利用性などを加味しながら、フロー部品や演算子に分解していく。 来、非同期処理の設計手法は、過去の蓄積を見ればもっと普及・発展していてもよさそうなものだが、筆者が見た範囲では、参考になるのは1970年代の構造化手法くらいである。日のバッチ処理の歴史は日固有のものであり、下地があるわけだが、残念ながらこの部分はロストテクノロジーになっている気配がある。 プロセスの詳細化は、基的にはDAGを下位のDAGにドリルダウンするときの粒度感をどう考えるかということに尽きる。オブジェクト指向では、オブジェクトに対する責

    第4回 再利用可能なモジュールを切り出す
  • 第3回 業務の境界や並列性を見極め処理を分割

    第3回と第4回では、Asakusaを使ったバッチ処理アプリケーションの設計方法について解説する。Asakusaでは、Batch DSLで記述する「バッチ」、Flow DSLで記述する「ジョブフロー」と「フロー部品」、Operator DSLで記述する「演算子」という三つの階層で、アプリケーションを構成する。 なお今回解説する設計技法は、Hadoopへの依存度を極力なくすことを意図している。Hadoopへの依存度が高いと、設計者がHadoopをマスターする必要があり、開発規模を拡大する足かせになるからである。以降は「クラウド時代の非同期処理設計の一般技法」と捉えてもらっても差し支えない。 有向非循環グラフ「DAG」を使って開発する Asakusaでの設計では、DAG(Directed Acyclic Graph)を用いる。DAGは、図1に示したような有向非循環グラフのことである。処理を表す頂

    第3回 業務の境界や並列性を見極め処理を分割
  • 第2回 言語、運用監視機能、テスト環境まで用意

    分散処理ミドルウエアの「Hadoop」を基幹バッチ処理に適用するためのフレームワーク「Asakusa」。第2回では、その構成要素を紹介しよう。 Asakusaは、MapReduceアプリケーションの入出力データのクラスファイルを生成する「Model Generator」、独自のDSL(Domain Specific Language)用コンパイラである「Ashigel Compiler」、実行ライブラリの「Rumtime Library」、データ入出力管理フレームワークの「ThunderGate(雷門)」という四つを提供している。 まず、ThunderGate以外の三つについて紹介しよう(図1)。 Model Generator Model Generatorは、開発者が定義した、MapReduceアプリケーションの入出力データ形式をインプットとし、Hadoop独自の「Writable」と

    第2回 言語、運用監視機能、テスト環境まで用意
  • 第1回 分散処理を隠蔽し、大規模開発を可能に

    筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。 盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス(

    第1回 分散処理を隠蔽し、大規模開発を可能に
  • ウルシステムズのHadoopフレームワーク「Asakusa」

    企業ITに携わる人々の間で、Hadoopに対する関心が急速に高まっている。Hadoopとは、米Googleが発表した論文のアイデアから生まれた、オープンソースの分散処理基盤ソフトウェアである。大量のデータを、比較的安価なサーバを多数並べたクラスタシステム上で、高速かつ効率的に処理できる。既に多くの企業が、Webログの分析やPOSデータの解析といった情報系システムの用途で、Hadoopの活用を始めている。 さらに近年では、大量データを高速処理できるHadoopのメリットを、基幹系システムにも応用しようという動きが出てきている。特に、基幹バッチの処理を高速化するための技術として、Hadoopに大きな期待が寄せられている。しかしその半面、Hadoopを基幹系システムで導入するには、技術的なハードルが数多く存在するともいわれている。 ここに目を付けたのが、ウルシステムズだ。同社が2011年3月にオ

    ウルシステムズのHadoopフレームワーク「Asakusa」
  • 第13回 Hadoopおまけ編─“Jadoop”作ってみました | gihyo.jp

    MapReduceは強力なバッチ処理を行う分散システムですが、サーバもクライアントも専用のソフトウェアが必要となります。だからこそ、高効率な環境が構築できるという利点もありますが、入出力がキーとバリューであるという点に着目した場合、同じような動作をするシステムがWeb上で作れるのではないか?と思いました。 現在はさまざまなシステムがWebサービスとして展開されており、あらゆるサービスを受けることができます。Webメール、スケジューラー、動画サイト、オフィスクローンなどなど…。Webブラウザが1つのプラットフォームとして進化し、またそれがOSの域にまで足を伸ばそうとしています。 そして、それらの実装の多くにJavaScriptが使用されていますが、ブラウザとWebサービスの進化の両方が組み合わさったときに、単独のプラグインやランタイム環境を必要としないJavaScriptが使用されるのはもっ

    第13回 Hadoopおまけ編─“Jadoop”作ってみました | gihyo.jp
  • Asakusa Framework|Hadoop開発が容易、しかも劇的に早い。基幹バッチ向けフレームワーク | ウルシステムズ株式会社 | UL Systems, Inc.

    プレスリリース メディア掲載 お知らせ Asakusa Framework UMLaut/J-XML ドキュメント・インテリジェンス レポート 書籍 会社概要 メッセージ 主な取引先 アクセス 情報セキュリティー基方針 キャリア採用 新卒採用 IR関連ニュース IRカレンダー ディスクロージャー・ポリシー IR資料 株式情報 IR免責事項 営業の概況 株価情報 IR FAQ 財務ハイライト 電子公告 IRお問合わせ 財務情報 投資家の皆様へ ウルシステムズは、基幹業務システムのバッチを高速処理するためのHadoopフレームワーク「Asakusa Framework™」(以下、Asakusa)を業界で初めて開発、オープンソース化しました。正式版の提供開始は、2011年3月を予定しており、様々な方から注目を集めています。 Hadoopは、オープンソースの分散処理基盤ソフトウェアとして注目を浴

    okinaka
    okinaka 2011/03/08
    もう3月なんだが。月末まで待ってみる。
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • 第12回 Hadoopのまとめ─MapReduce処理をやってみよう[完結編] | gihyo.jp

    HadoopはGoogleのGFSおよびMapreduceのオープンソースクローンとして誕生しました。インターネットコンテンツが、誰でもいつでもアクセスできるようになり利便性が上がる一方で、過去の資産も含めるとその情報量は今や膨大なものとなっています。そのような一方向に増え続けるデータへの対抗手段がGoogle技術であり、Hadoopであります。 前回まで5回にわたってhadoopの概要、導入、そして実際のMapReduce処理を行ってきましたが、実際のインターネット上のデータを使用することでより具体的にイメージが持てたのではないでしょうか。 Hadoopを言い表すキーワードとしては 分散ファイルシステム 容易な分散計算フレームワーク 特定の言語に依存しない作り が挙げられます。 分散ファイルシステム 分散ファイルシステムを用いることで、スケールアウトを前提とした設計となっており、拡張性

    第12回 Hadoopのまとめ─MapReduce処理をやってみよう[完結編] | gihyo.jp
  • 第6回 bootstrapを設定するには | gihyo.jp

    Amazon Elastic Mapreduce(EMR)では、起動時にHadoopのオプションなどを設定できるbootstrapというものが用意されています。うまく利用すれば、細かくHadoopのチューニングをしたり、Jobが起動する前に前処理を行ったりすることができます。 今回は、Webコンソール、Amazon Elastic MapReduce Ruby Client、Java SDKのそれぞれでbootstrapを設定する方法をご紹介します。 Webコンソールでbootstrapを設定するには まずWebコンソールを使用して設定する方法を見ていきましょう。Webコンソールからは「Job作成」画面の「BOOTSTRAP ACTIONS」で設定します。この画面で「Configure your Bootstrap Actions」を選択しましょう。図1のような画面になります。 図1 「⁠

    第6回 bootstrapを設定するには | gihyo.jp
  • Hadoop使ってる?

    NTTデータのHadoopアプライアンス「Lindacloud for Hadoop」のプラットフォームとなる「Lindacloud」 米Googleの分散データ処理技術をオープンソースとして実装した「Hadoop」――。膨大なデータを高速に解析するツールとして桁違いの可能性を持ち、国内の一般企業でも利用が始まりました。 楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」などにHadoopを使用。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムなどにHadoopを採用しました。 システムインテグレーターはHadoop関連のツールやサービスを相次いで発表しています。Hadoopを企業情報システムに組み込みやすくなってきました。 Hadoopの導入事例 グーグル発「Hadoop」、日企業も利用へ リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡

    Hadoop使ってる?
  • 認証データベースへのHBase/Hadoopの適用

    1. はじめに HP IceWall SSO は、日ヒューレット・パッカード株式会社が日で開発した Webシングルサインオン製品です。1997年の販売開始より、合計4000万以上のユーザーライセンスが販売されており、日国内の市場占有率も1位となっています*1。大企業のミッションクリティカルなシステムの認証基盤としても使用されている非常に実績の高い製品です。 連載では、HP IceWall SSOの最新機能を軸とし、クラウド環境における認証システムへの新技術の適用、クラウドとの認証連携、そしてクラウドの活用事例を3回にわたり紹介していきたいと思います。 第1回はHP IceWall SSOにおける認証データベースへのHBase/Hadoopの適用に関して紹介します。 HBaseはApache Software Foundation(以下ASF)によってトップレベルプロジェクトの位置づ

  • 第3回 Amazon Elastic MapReduce Ruby ClientでEMRを起動する | gihyo.jp

    前回は、Web ConsoleからAmazon Elastic MapReduceを起動する方法を説明しました。今回はAPIでの起動方法を紹介していきます。 Web ConsoleとAPIはどこが違うのか 使用前に、まずWeb ConsoleとAPIの違いをおさえておきましょう。 Webコンソールは、1回の操作でJobを1つしか実行できません。これだと、毎回EC2のインスタンスが起動、ターミネートが走り、あまり効率的とはいえません。 一方APIを使用すると、1回の起動で複数のJobを実行できます。たとえば、3つのJobを実行したい場合は、以下のような操作が可能になります。 APIEMRを起動する ↓ 3つのJobを投入する ↓ すべてのJobが終了したら、EMRをターミネートする また、「⁠最近EMRで加わった新機能を利用中にインスタンス数を変更」といったこともできます。 EMRではどの

    第3回 Amazon Elastic MapReduce Ruby ClientでEMRを起動する | gihyo.jp
  • 第10回 MapReduce処理をやってみよう![実践編] | gihyo.jp

    今回は2ちゃんねるデータを処理するという実践を行ってみます。 品詞解析ライブラリの導入 品詞解析にはいくつかのツールがありますが、今回はMeCabというツールを使用します。 MeCabのサイト URL:http://mecab.sourceforge.net/ MeCab体と、CMeCabというMeCabをJNIで使用するライブラリを導入します。 MeCab体のセットアップ mecab-0.98.tar.gzをダウンロード&展開します。 $ ./configure $ make $ make check # make install /usr/local/libにlibmecab.so.1が入ります。 辞書のセットアップ MeCabの動作には辞書が必要ですので、辞書のセットアップを行います。 mecab-ipadic-2.7.0-20070801.tar.gzをダウンロード&展開します

    第10回 MapReduce処理をやってみよう![実践編] | gihyo.jp
  • Robust log process

    2013/08/01 JAWS-UG福岡 x e-Zuka-Tech Night 「今一度、EC2を」Aya Komuro

    Robust log process
    okinaka
    okinaka 2011/01/17
    ログ集計サーバについて
  • 第1回 Amazon Elastic MapReduceを使う準備をする | gihyo.jp

    Amazon Elastic MapReduceとは 昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service(AWS)のElastic MapReduce(EMR)です。 図1 Amazon Elastic MapReduce AWSMapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。連載ではEMRの使い方、気をつけなければいけない点などを重点的

    第1回 Amazon Elastic MapReduceを使う準備をする | gihyo.jp
  • 第8回 Hadoopの環境を作ってみよう! | gihyo.jp

    hadoop1:masterサーバ…NameNode/JobTracker(NFSサーバ) hadoop2, hadoop3:slaveサーバ…DataNode/TaskTracker(NFSクライアント) NameNode, DataNodeはHDFSのための機能→masterサーバ JobTracker, TaskTrackerはMapReduceのための機能→slaveサーバ NFSはhadoopの設定やプログラムを共通で使用するために導入します(導入の手間を軽減するため⁠)⁠。 図1 システム構成図 それでは構築作業を進めていきます。 NFSディレクトリの作成 hadoop1に/usr/local/apach_projディレクトリを作成します。このディレクトリにはhadoopnのバイナリや設定ファイルが置かれ、hadoop2, hadoop3から共通に使用されることになります。NF

    第8回 Hadoopの環境を作ってみよう! | gihyo.jp
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

    Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた