[B! hadoop] [2ページ] okinakaのブックマーク

第7回　Amazon Elastic MapReduceのパフォーマンスを引き出すためのHadoopの基礎知識 | gihyo.jp

Amazon Elastic Mapreduce（EMR）は、Hadoop環境を構築することなくMapReduceが使える、PaaSに近いものです。しかし、中身はAmazonが独自にカスタマイズしているHadoopなので、一般的なHadoopのチューニング手法をそのまま適用できない場合があったりします。前回の予告とは若干異なりますが、今回はいったんEMRを離れてHadoopの基礎を説明します。順番的にも先にこちらを説明したほうが内部のしくみもわかってより理解しやすいと思います。 HDFSではサイズが大きいファイルを扱うほうが効率的あえて今回まで触れませんでしたが、Hadoopとは言わずと知れたGoogleの論文をもとに作成されたGFS（Google File System）とMapReduceのオープンソースのクローンです。GFSはHDFS（Hadoop Distributed Fil

okinaka 2011/03/31

hadoop

リンク

第4回　再利用可能なモジュールを切り出す

第4回では、前回解説した上位のDAGをさらに下位に分解していく「プロセスの詳細化」と、「データモデルの設計」について解説する。まずプロセスの詳細化について述べよう。上位のDAGから、下位のDAGへ、適切な粒度で切り分けて行く作業である。具体的には第3回で切り分けたジョブフローを、再利用性などを加味しながら、フロー部品や演算子に分解していく。本来、非同期処理の設計手法は、過去の蓄積を見ればもっと普及・発展していてもよさそうなものだが、筆者が見た範囲では、参考になるのは1970年代の構造化手法くらいである。日本のバッチ処理の歴史は日本固有のものであり、下地があるわけだが、残念ながらこの部分はロストテクノロジーになっている気配がある。プロセスの詳細化は、基本的にはDAGを下位のDAGにドリルダウンするときの粒度感をどう考えるかということに尽きる。オブジェクト指向では、オブジェクトに対する責

okinaka 2011/03/31

hadoop

リンク

第3回　業務の境界や並列性を見極め処理を分割

第3回と第4回では、Asakusaを使ったバッチ処理アプリケーションの設計方法について解説する。Asakusaでは、Batch DSLで記述する「バッチ」、Flow DSLで記述する「ジョブフロー」と「フロー部品」、Operator DSLで記述する「演算子」という三つの階層で、アプリケーションを構成する。なお今回解説する設計技法は、Hadoopへの依存度を極力なくすことを意図している。Hadoopへの依存度が高いと、設計者がHadoopをマスターする必要があり、開発規模を拡大する足かせになるからである。以降は「クラウド時代の非同期処理設計の一般技法」と捉えてもらっても差し支えない。有向非循環グラフ「DAG」を使って開発する Asakusaでの設計では、DAG（Directed Acyclic Graph）を用いる。DAGは、図1に示したような有向非循環グラフのことである。処理を表す頂

okinaka 2011/03/30

hadoop

リンク

第2回　言語、運用監視機能、テスト環境まで用意

分散処理ミドルウエアの「Hadoop」を基幹バッチ処理に適用するためのフレームワーク「Asakusa」。第2回では、その構成要素を紹介しよう。 Asakusaは、MapReduceアプリケーションの入出力データのクラスファイルを生成する「Model Generator」、独自のDSL（Domain Specific Language）用コンパイラである「Ashigel Compiler」、実行ライブラリの「Rumtime Library」、データ入出力管理フレームワークの「ThunderGate（雷門）」という四つを提供している。まず、ThunderGate以外の三つについて紹介しよう（図1）。 Model Generator Model Generatorは、開発者が定義した、MapReduceアプリケーションの入出力データ形式をインプットとし、Hadoop独自の「Writable」と

okinaka 2011/03/29

hadoop

リンク

第1回　分散処理を隠蔽し、大規模開発を可能に

筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目をお届けする2011年3月31日の予定である。 Asakusaを使うことでHadoopによる分散処理のメリットを享受することが可能となり、これまでRDBMSを利用していた場合と比べて、多くのケースでバッチ処理システムの性能を大幅に向上することができる。筆者らが実際に構築を支援したシステムでは、それまで4時間かかっていた処理が数分で終わるようなケースも出てきている。盛んに報道されているように、Hadoopはすでに多くの導入実績がある。ただしその用途は、ログ分析システムやレコメンデーションエンジンなどのビジネスインテリジェンス（

okinaka 2011/03/28

hadoop

リンク

ウルシステムズのHadoopフレームワーク「Asakusa」

企業ITに携わる人々の間で、Hadoopに対する関心が急速に高まっている。Hadoopとは、米Googleが発表した論文のアイデアから生まれた、オープンソースの分散処理基盤ソフトウェアである。大量のデータを、比較的安価なサーバを多数並べたクラスタシステム上で、高速かつ効率的に処理できる。既に多くの企業が、Webログの分析やPOSデータの解析といった情報系システムの用途で、Hadoopの活用を始めている。さらに近年では、大量データを高速処理できるHadoopのメリットを、基幹系システムにも応用しようという動きが出てきている。特に、基幹バッチの処理を高速化するための技術として、Hadoopに大きな期待が寄せられている。しかしその半面、Hadoopを基幹系システムで導入するには、技術的なハードルが数多く存在するともいわれている。ここに目を付けたのが、ウルシステムズだ。同社が2011年3月にオ

okinaka 2011/03/11

hadoop

リンク

第13回　Hadoopおまけ編─“Jadoop”作ってみました | gihyo.jp

MapReduceは強力なバッチ処理を行う分散システムですが、サーバもクライアントも専用のソフトウェアが必要となります。だからこそ、高効率な環境が構築できるという利点もありますが、入出力がキーとバリューであるという点に着目した場合、同じような動作をするシステムがWeb上で作れるのではないか？と思いました。現在はさまざまなシステムがWebサービスとして展開されており、あらゆるサービスを受けることができます。Webメール、スケジューラー、動画サイト、オフィスクローンなどなど…。Webブラウザが1つのプラットフォームとして進化し、またそれがOSの域にまで足を伸ばそうとしています。そして、それらの実装の多くにJavaScriptが使用されていますが、ブラウザとWebサービスの進化の両方が組み合わさったときに、単独のプラグインやランタイム環境を必要としないJavaScriptが使用されるのはもっ

okinaka 2011/03/09

hadoop

リンク

Asakusa Framework｜Hadoop開発が容易、しかも劇的に早い。基幹バッチ向けフレームワーク | ウルシステムズ株式会社 | UL Systems, Inc.

プレスリリースメディア掲載お知らせ Asakusa Framework UMLaut/J-XML ドキュメント・インテリジェンスレポート書籍会社概要メッセージ主な取引先アクセス情報セキュリティー基本方針キャリア採用新卒採用 IR関連ニュース IRカレンダーディスクロージャー・ポリシー IR資料株式情報 IR免責事項営業の概況株価情報 IR FAQ 財務ハイライト電子公告 IRお問合わせ財務情報投資家の皆様へウルシステムズは、基幹業務システムのバッチを高速処理するためのHadoopフレームワーク「Asakusa Framework™」（以下、Asakusa)を業界で初めて開発、オープンソース化しました。正式版の提供開始は、2011年3月を予定しており、様々な方から注目を集めています。 Hadoopは、オープンソースの分散処理基盤ソフトウェアとして注目を浴

okinaka 2011/03/08

もう３月なんだが。月末まで待ってみる。

hadoop

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

okinaka 2011/03/05

hadoop

リンク

第12回　Hadoopのまとめ─MapReduce処理をやってみよう［完結編］ | gihyo.jp

HadoopはGoogleのGFSおよびMapreduceのオープンソースクローンとして誕生しました。インターネットコンテンツが、誰でもいつでもアクセスできるようになり利便性が上がる一方で、過去の資産も含めるとその情報量は今や膨大なものとなっています。そのような一方向に増え続けるデータへの対抗手段がGoogleの技術であり、Hadoopであります。前回まで5回にわたってhadoopの概要、導入、そして実際のMapReduce処理を行ってきましたが、実際のインターネット上のデータを使用することでより具体的にイメージが持てたのではないでしょうか。 Hadoopを言い表すキーワードとしては分散ファイルシステム容易な分散計算フレームワーク特定の言語に依存しない作りが挙げられます。分散ファイルシステム分散ファイルシステムを用いることで、スケールアウトを前提とした設計となっており、拡張性

okinaka 2011/02/23

hadoop

リンク

第6回　bootstrapを設定するには | gihyo.jp

Amazon Elastic Mapreduce（EMR）では、起動時にHadoopのオプションなどを設定できるbootstrapというものが用意されています。うまく利用すれば、細かくHadoopのチューニングをしたり、Jobが起動する前に前処理を行ったりすることができます。今回は、Webコンソール、Amazon Elastic MapReduce Ruby Client、Java SDKのそれぞれでbootstrapを設定する方法をご紹介します。 Webコンソールでbootstrapを設定するにはまずWebコンソールを使用して設定する方法を見ていきましょう。Webコンソールからは「Job作成」画面の「BOOTSTRAP ACTIONS」で設定します。この画面で「Configure your Bootstrap Actions」を選択しましょう。図1のような画面になります。図1　「⁠

okinaka 2011/02/17

hadoop

リンク

Hadoop使ってる？

NTTデータのHadoopアプライアンス「Lindacloud for Hadoop」のプラットフォームとなる「Lindacloud」米Googleの分散データ処理技術をオープンソースとして実装した「Hadoop」――。膨大なデータを高速に解析するツールとして桁違いの可能性を持ち、国内の一般企業でも利用が始まりました。楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」などにHadoopを使用。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムなどにHadoopを採用しました。システムインテグレーターはHadoop関連のツールやサービスを相次いで発表しています。Hadoopを企業情報システムに組み込みやすくなってきました。 Hadoopの導入事例グーグル発「Hadoop」、日本企業も利用へリクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡

okinaka 2011/02/10

hadoop

リンク

認証データベースへのHBase/Hadoopの適用

1. はじめに HP IceWall SSO は、日本ヒューレット・パッカード株式会社が日本で開発した Webシングルサインオン製品です。1997年の販売開始より、合計4000万以上のユーザーライセンスが販売されており、日本国内の市場占有率も1位となっています＊1。大企業のミッションクリティカルなシステムの認証基盤としても使用されている非常に実績の高い製品です。本連載では、HP IceWall SSOの最新機能を軸とし、クラウド環境における認証システムへの新技術の適用、クラウドとの認証連携、そしてクラウドの活用事例を3回にわたり紹介していきたいと思います。第1回はHP IceWall SSOにおける認証データベースへのHBase／Hadoopの適用に関して紹介します。 HBaseはApache Software Foundation（以下ASF）によってトップレベルプロジェクトの位置づ

okinaka 2011/02/04

hadoop

リンク

第3回　Amazon Elastic MapReduce Ruby ClientでEMRを起動する | gihyo.jp

前回は、Web ConsoleからAmazon Elastic MapReduceを起動する方法を説明しました。今回はAPIでの起動方法を紹介していきます。 Web ConsoleとAPIはどこが違うのか使用前に、まずWeb ConsoleとAPIの違いをおさえておきましょう。 Webコンソールは、1回の操作でJobを1つしか実行できません。これだと、毎回EC2のインスタンスが起動、ターミネートが走り、あまり効率的とはいえません。一方APIを使用すると、1回の起動で複数のJobを実行できます。たとえば、3つのJobを実行したい場合は、以下のような操作が可能になります。 APIでEMRを起動する ↓ 3つのJobを投入する ↓ すべてのJobが終了したら、EMRをターミネートするまた、「⁠最近EMRで加わった新機能を利用中にインスタンス数を変更」といったこともできます。 EMRではどの

okinaka 2011/01/27

hadoop

リンク

第10回　MapReduce処理をやってみよう！［実践編］ | gihyo.jp

今回は2ちゃんねるデータを処理するという実践を行ってみます。品詞解析ライブラリの導入品詞解析にはいくつかのツールがありますが、今回はMeCabというツールを使用します。 MeCabのサイト URL：http://mecab.sourceforge.net/ MeCab本体と、CMeCabというMeCabをJNIで使用するライブラリを導入します。 MeCab本体のセットアップ mecab-0.98.tar.gzをダウンロード＆展開します。 $ ./configure $ make $ make check # make install /usr/local/libにlibmecab.so.1が入ります。辞書のセットアップ MeCabの動作には辞書が必要ですので、辞書のセットアップを行います。 mecab-ipadic-2.7.0-20070801.tar.gzをダウンロード＆展開します

okinaka 2011/01/26

hadoop

リンク

Robust log process

2013/08/01 JAWS-UG福岡 x e-Zuka-Tech Night 「今一度、EC2を」Aya Komuro

okinaka 2011/01/17

ログ集計サーバについて

hadoop

リンク

第1回　Amazon Elastic MapReduceを使う準備をする | gihyo.jp

Amazon Elastic MapReduceとは昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service（AWS）のElastic MapReduce（EMR）です。図1　Amazon Elastic MapReduce AWS、MapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。本連載ではEMRの使い方、気をつけなければいけない点などを重点的

okinaka 2011/01/13

hadoop

リンク

第8回　Hadoopの環境を作ってみよう! | gihyo.jp

hadoop1：masterサーバ…NameNode/JobTracker（NFSサーバ） hadoop2, hadoop3：slaveサーバ…DataNode/TaskTracker（NFSクライアント） NameNode, DataNodeはHDFSのための機能→masterサーバ JobTracker, TaskTrackerはMapReduceのための機能→slaveサーバ NFSはhadoopの設定やプログラムを共通で使用するために導入します（導入の手間を軽減するため⁠）⁠。図1　システム構成図それでは構築作業を進めていきます。 NFSディレクトリの作成 hadoop1に/usr/local/apach_projディレクトリを作成します。このディレクトリにはhadoopnのバイナリや設定ファイルが置かれ、hadoop2, hadoop3から共通に使用されることになります。NF

okinaka 2010/12/28

hadoop

リンク

Hadoop MapReduceプログラムを解剖する

オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

okinaka 2010/12/01

hadoop

リンク

HBaseとはどんなNoSQLデータベースなのか？日本語で読める情報を集めてみた

Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model（一貫性モデル）を備えている自動ロードバランス、フェイルオーバー、圧縮機能サーバーごとに数十個のシャードを割り当て可能、などなどこのHBaseはどのようなデータベースなのでしょうか？情報を集めてみました。 HBase入門のプレゼンテーション最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

okinaka 2010/11/22

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

hadoopに関するokinakaのブックマーク (73)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス