タグ

Hadoopとhadoopに関するnobusueのブックマーク (212)

  • [AWARD受賞製品]HadoopとインメモリーBIを組み合わせビッグデータを分析

    ITpro EXPO AWARD 2011でITmediaエンタープライズ賞に選ばれたのは、日立製作所が参考出典した「Hadoop、QlikView連携データ活用ソリューション」である(写真1)。WebのアクセスログをBI(ビジネスインテリジェンス)ソフトで分析する際に、あらかじめApache Hadoopを使ってデータをコンパクトに集計処理しておくことで、より大量のデータを一度に分析できるようにする。 ソフトウエアの構成要素は大きく三つある。(a)一つ目は、インメモリー型で動作するBIソフトの「QlikView」(米Qlik Technologiesが開発、写真2)。(b)二つ目は、Webの生ログを集計してQlikViewの分析用データ(CSV)を生成するApache Hadoop。(c)三つ目は、Hadoopの操作や稼働状況を管理する運用管理ソフト「JP-1」、---である。これらを連

    [AWARD受賞製品]HadoopとインメモリーBIを組み合わせビッグデータを分析
  • Hadoopがバージョン1.0へ。2.0、3.0の議論も進む

    大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。 Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。 今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。

    Hadoopがバージョン1.0へ。2.0、3.0の議論も進む
    nobusue
    nobusue 2012/01/08
    1.0=0.20系の安定バージョンということね。
  • Hadoop Troubleshooting 101 - Japanese Version

    3. Agenda • チケット分析 • 設定ミスとは? • メモリの管理ミス • TT OOME • JT OOME • Native Threads • スレッドの管理ミス • Fetch Failures • Replicas • ディスクの管理ミス • No File • Too Many Files • Cloudera Manager 4. Agenda • チケット分析 • 設定ミスとは? • メモリの管理ミス • TT OOME • JT OOME • Native Threads • スレッドの管理ミス • Fetch Failures • Replicas • ディスクの管理ミス • No File • Too Many Files • Cloudera Manager

    Hadoop Troubleshooting 101 - Japanese Version
  • Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム:テキストマイニングで始める実践Hadoop活用(最終回)(1/3 ページ) Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上 前回の「実践! 「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。 今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
    nobusue
    nobusue 2011/12/16
    ロジスティック回帰
  • Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

    Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

    Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary
  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実

    オープンソースの分散バッチ処理ソフト「Apace Hadoop(以下、Hadoop)」の国内コミュニティが主催するイベント「Hadoop Conference Japan 2011 Fall」が2011年9月26日に都内で開催された(写真1)。第3回となる今回は、リクルートが会場提供と運営支援をすることにより、コミュニティ主催のイベントとしては異例の1000人規模の会場を確保(写真2)、月曜日にもかかわらず多くの参加者が午前10時の開始前から来場した。 米国のHadoopベンダー3社が基調講演 午前中に開催された基調講演では、Hadoopを使ったシステム構築を支援する、ベンダー3社が相次いで登壇。Hadoopの企業情報システムでの利用を前提に、「いかに簡単に構築運用できるか」を主なテーマに据えて、自社製品やサービスの最新動向を語った。 最初に登壇したのは、米ClouderaのTodd Li

    Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実
  • Oozieの紹介

    Oozieのワークフローはパラメータ化(ワークフロー定義の${inputDir}のような変数を使って)できます。ワークフローのジョブを実行する場合は、パラメータの値を提供する必要があります。適切にパラメータ化(例えば出力ディレクトリを別にする)できれば複数の独立したワークフロージョブを同時に実行できます。 要求に従って実行できるワークフローもありますが、ほとんどのワークフローは一定間隔で定期的に実行されます。また、データの利用可能性や外部イベントに従って実行されることもあります。Oozie Coordinatorを使えばユーザはこれらのパラメータに従ってワークフローの実行を定義できます。また、述語の形式でワークフロー実行トリガをモデル化することができます。この述語はデータや時間、外部イベントを参照できます。この述語が満たされた場合にワークフロージョブが実行されます。 また、定期的かつ不規則

  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
  • 12ノードまでほぼ比例して向上

    スレーブノード数を変化させた場合、100万件のデータの場合はノード数を増加させてもスループットがわずかしか向上しなかったが、1000万件のデータの場合はノード数にほぼ比例してスループットが向上した 12ノードの場合の性能は、処理時間にすると2分5秒である。実際にはこれにインポートなどの処理時間がかかるが、数分で終わるだろう。筆者らが開発に携わったRDBMSの実システムでは、約100万件の仕入データの買掛計上処理に約1時間を要していた。それに比べると100倍近い性能になる。 もちろん、検証環境では「実データより性能が得られやすい分布のデータを使用した」「検証用のプログラムは実システムと比べると処理が簡略化されている」などの違いはあるが、ケタ違いの性能が出たことは確かだ。 また、分散処理システムの中には数ノード程度で性能が頭打ちになるものもあるが、Hadoopは10ノード以上でも性能が向上し、

    12ノードまでほぼ比例して向上
  • 1000万件のバッチを2分で実行

    Hadoop(ハドゥープ)は複数のサーバーでクラスターを構成し、MapReduceという実行環境や、HDFS(Hadoop Distributed File System)という分散ファイルシステムなどによって、効率的な並列分散処理を実現するミドルウエアである。 MapReduceでは、データを整理・抽出するMapタスク、Mapタスクの出力を基にデータを集計するReduceタスクを、クラスターの各ノードで分散処理することで性能を高める。 現状では、Hadoopは主にログ分析やBI(Business Intelligence)に使用され、大量データを分析するための基盤ソフトと理解されることも多いが、それにとどまらず企業の基幹システムを大きく変える可能性を持っている。 Hadoopは分散処理を容易かつ高速に実現するため、割り切った作りになっている。基的に処理中のデータの外部からの更新や複雑な

    1000万件のバッチを2分で実行
  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ
  • 「Jaql」を使ってMapReduceをより簡単に

    Jaql(a query language desired for JSON:JSON用に位置づけられたクエリ言語)は、JSON型式のデータを処理するためのクエリ言語で、Apache HadoopのMapReduceを処理するための実装が存在します。日語では「じゃっくる」と発音します。ジャッカルに似ているため、一部のサイトにはジャッカルの写真が掲載されていました。 もともとはIBMのアルマデン研究所で研究・開発され、オープンソースへ提案されました。原稿執筆時点では、Apache Incubatorプロジェクトになっており、Google Codeのサイトで開発が進められています。 IBMアルマデン研究所のサイト Apache Hadoop用実装のダウンロードサイト 記事執筆時点では、つい先頃リリースされた、Jaql 0.5.1をベースに解説しています。 1. JSONの基礎 JSON(

    「Jaql」を使ってMapReduceをより簡単に
  • 58blog: Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)に参加した際の備忘録

    2011/05/05 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)に参加した際の備忘録 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回) : ATNDに参加した際の備忘録です。 Togetterはこちら。 Togetter - 「Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)」 鬼塚さんのお話はHadoop、分散処理、大規模データに限らず、普段我々が触れるデータやシステムにとっても参考となる、データの扱い方についての質的な部分を抽出することが出来たような気がしました。 セミジョインの考え方とか、RDBSQLでも似たようなことをやった記憶があります。 浅海さんのフレームワークの話では、「イベント」の定義について議論が盛り上がりまし

  • Ubuntu10.04でHadoop環境構築(疑似分散編) - osacaz4の日記

    何度も構築しているとたまに忘れてしまうので、備忘録として記載します。 今行っている研究室での導入用教材にも転用。 OSのインストールからHadoopのインストールまで駆け足で解説します。 以下の環境が前提です。(ホストOSや仮想環境は他でも可) ホストOS:Mac OSX(10.6.3) 仮想環境:VMware Fusion3 インストールの流れ Ubuntu10.4LTSインストール VMware Toolsインストール JDK6インストール Hadoop 0.20.2インストール 大まかに上記のような流れ。 Ubuntuのインストール ほとんど悩む事はないでしょう。 VMware仮想マシンを作成し、isoからインストール Ubuntu Desktop語 Remixのダウンロード | Ubuntu Japanese Team 「簡易インストールは選択しない」ことだけ注意 VMwar

    Ubuntu10.04でHadoop環境構築(疑似分散編) - osacaz4の日記
  • 基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する

    ウルシステムズは2011年3月31日、「Asakusa」をオープンソースソフトウエア(OSS)として公開した(関連記事:Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌)。同社はある顧客の基幹バッチシステムをAsakusaで構築している。Hadoopで基幹バッチ処理を行うにあたっての問題をどう解決したのか。なぜOSSとして公開したのか。ウルシステムズ 取締役 神林飛志氏に聞いた。 ハードウエア、ソフトウエア、SIを含めれば1000億円は軽く超えると見ている。特に大きいのは基幹バッチ処理システムだ。BI(ビジネスインテリジェンス)の案件は1件3000万円から1億円くらいだが、基幹バッチ処理の案件は1件1億円以上。 バッチ処理システムは“残ってしまっている”ものが多い。手をつけたくとも、わかる人がいなくなって保守できなくなりつつある。再構築したいというニーズは高い。実際に引き合

    基幹バッチ再構築のニーズは大きい、Hadoopの課題をAsakusaで解決する
  • ウルシステムズ、基幹バッチ用Hadoopフレームワーク「Asakusa」をOSSとして公開

    ウルシステムズは2011年3月31日、オープンソースソフトウエア(OSS)の分散バッチ処理ソフト「Hadoop」を使って基幹バッチ処理を開発できるソフトウエアフレームワーク「Asakusa Framework」をOSSとして公開した。同社は4月1日付けでHadoopなどクラウド関連技術の導入支援を行う専門組織を設立し、先端技術コンサルティング事業を強化する。 Asakusaは、Hadoopに詳しくないエンジニアでも、同社独自のDSL(ドメイン特化言語)によって、Hadoopを使ったアプリケーションを開発できるというフレームワークである(関連情報:Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌)。同ソフトを開発したウルシステムズは、Asakusaを使用した基幹システム構築を既に始めている。「Asakusaによって、普段は日が当たりづらい基幹系バッチを開発するエンタープライズ

    ウルシステムズ、基幹バッチ用Hadoopフレームワーク「Asakusa」をOSSとして公開
  • 第3回 業務の境界や並列性を見極め処理を分割

    第3回と第4回では、Asakusaを使ったバッチ処理アプリケーションの設計方法について解説する。Asakusaでは、Batch DSLで記述する「バッチ」、Flow DSLで記述する「ジョブフロー」と「フロー部品」、Operator DSLで記述する「演算子」という三つの階層で、アプリケーションを構成する。 なお今回解説する設計技法は、Hadoopへの依存度を極力なくすことを意図している。Hadoopへの依存度が高いと、設計者がHadoopをマスターする必要があり、開発規模を拡大する足かせになるからである。以降は「クラウド時代の非同期処理設計の一般技法」と捉えてもらっても差し支えない。 有向非循環グラフ「DAG」を使って開発する Asakusaでの設計では、DAG(Directed Acyclic Graph)を用いる。DAGは、図1に示したような有向非循環グラフのことである。処理を表す頂

    第3回 業務の境界や並列性を見極め処理を分割
  • 第2回 言語、運用監視機能、テスト環境まで用意

    分散処理ミドルウエアの「Hadoop」を基幹バッチ処理に適用するためのフレームワーク「Asakusa」。第2回では、その構成要素を紹介しよう。 Asakusaは、MapReduceアプリケーションの入出力データのクラスファイルを生成する「Model Generator」、独自のDSL(Domain Specific Language)用コンパイラである「Ashigel Compiler」、実行ライブラリの「Rumtime Library」、データ入出力管理フレームワークの「ThunderGate(雷門)」という四つを提供している。 まず、ThunderGate以外の三つについて紹介しよう(図1)。 Model Generator Model Generatorは、開発者が定義した、MapReduceアプリケーションの入出力データ形式をインプットとし、Hadoop独自の「Writable」と

    第2回 言語、運用監視機能、テスト環境まで用意