タグ

hadoopに関するqaz76のブックマーク (18)

  • Amazon EMR上でAsakusa Frameworkを利用する — Asakusa Framework Sandbox 0.6.2 documentation

    Amazon EMR上でAsakusa Frameworkを利用する¶ 対象バージョン: Asakusa Framework 0.6.0 以降 この文書は、 Amazon Web Services (AWS) が提供する クラウド環境上のHadoopサービス Amazon Elastic MapReduce (Amazon EMR) 上で Asakusa Frameworkを利用する方法について説明します。 以降では、 Amazon Web Services を「AWS」、 Amazon Elastic MapReduce を「EMR」と表記します。 また、書ではAsakusa Frameworkのデプロイやアプリケーションの実行時に、 AWSが提供するストレージサービスである Amazon Simple Storage Service (Amazon S3) を利用します。以降では、

  • AsakusaFWインストール メモ(Hishidama's Asakusa Framework install Memo)

    概要 「Asakusa Frameworkのインストール」と言った場合、2通りの意味が考えられる。 開発環境の構築 Asakusaプロジェクトを作ったり、テスト用の実行環境を作る。 運用環境の構築 Hadoopクラスター上で実行できる環境を作る。 環境の構築は、0.6.0より前はMavenを使って行っていた。 0.6.0以降はGradleを使って行う。 EclipseプラグインのShafuを使うと、Gradleの操作が隠蔽される。 開発環境の構築(0.6.0以降) 開発環境の構築は、UNIXの場合はJinrikishaを使うのが便利。 (EclipseのインストールやAsakusaFWの実行環境の構築まで行ってくれる) Asakusaプロジェクト(Asakusaアプリケーションを作る為のソース群)を作るには、Shafu(Eclipseプラグイン)を使うのが便利。 必要な設定ファイル類だけ存

  • Jinrikisha の 特徴 — Jinrikisha 0.10.4 documentation

  • Jinrikisha オフライン環境での使用について — Jinrikisha 0.10.4 documentation

  • Mavenをオフラインで使うために、ローカルリポジトリにライブラリをダウンロードしておく - CLOVER🍀

    追記) ソースやJavadocのJARファイルなども含めて集める方法を後で書いたので、こちらを見た方がよいかもしれません mvnコマンドで、ソースとJavadocのJARを取得するComments http://d.hatena.ne.jp/Kazuhira/20121226/1356529301 ちょっと前に知って、もう少し前に知りたかったと思ったゴールです…。 dependency:go-offline http://maven.apache.org/plugins/maven-dependency-plugin/go-offline-mojo.html 実行結果は省略しますが、以下のコマンドでカレントのプロジェクトが依存するライブラリやプラグインをすべてローカルリポジトリにダウンロードしてきます。 $ mvn dependency:go-offline 特定のスコープ除外とかもできる

    Mavenをオフラインで使うために、ローカルリポジトリにライブラリをダウンロードしておく - CLOVER🍀
  • Asakusa Framework スタートガイド — Asakusa Framework 0.10.4 documentation (revision-2)

  • Hadoopクラスタを起動、いよいよTwitterの分析へ

    今回のセッションで紹介されたデータベースがいくつあったかご存じですか?実に2桁にのぼる数のデータベースが紹介されていたのです。皆様は10以上のデータベース名をすぐに挙げることができますか?facebookのファンページでは当日の熱いセッション内容を見ることができます。一体いくつのデータベースが紹介されたのか、ぜひ数えてみてください! パーミッションに注意! さて、前回読んでいただいた方はどこに問題があったかお分かりになったでしょうか。ちなみに前回の記事ではCDH3のRPMパッケージインストールからスタートしているため、その前提となるJava SEのインストールには触れていませんでした。Javaが無くていきなり引っかかった方、ごめんなさい。 手順から抜けていたのは使用するディレクトリの作成と適切なパーミッションの設定です。基的な部分ですが、だからこそ抜けやすい部分です。しかも、OSのファイ

    Hadoopクラスタを起動、いよいよTwitterの分析へ
  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
  • 日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」

    IBMは2011年8月31日、大量データを分析するシステムをHadoopを用いて構築・運用するミドルウエアの新版「InfoSphere BigInsights Enterprise Edition V1.2」を発表した。新版では、表計算ソフトのようにHadoopデータを分析できる「BigSheets」機能を追加した(写真)。2011年9月2日に出荷する。 InfoSphere BigInsightsは、大量データ分析用の分散処理ソフト「Apache Hadoop」の、IBM版のディストリビューションである。Hadoopシステムを構築・運用するためのツール群を、企業向けにパッケージ化している。Hadoop独自の情報処理プロセス(MapReduce処理)を扱いやすくする上位言語(Jaql、Pig、Hive、その他)、インストーラ、統合開発環境、ジョブスケジューラ、ワークフローエンジンなどを

    日本IBM、表計算のように分析できるHadoopソフト新版「BigInsights」
    qaz76
    qaz76 2011/08/31
    そういえば、Apache Pig試してみてなかったな。。
  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)

    Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか? 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ(Jonathan Gray)氏による解説が行われました。 解説はほぼスライドの内容そのままでした。当日使われた日語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか? MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)
  • エンタープライズ向けHadoop提供へ、米EMC - @IT

    2011/05/10 Hadoopのエンタープライズ向けディストリビューションを6月末までに提供すると、米EMCが5月9日に発表した。EMCといっても、ストレージ機器の事業部門ではない。同社が2010年7月に買収した、元米Greenplumの事業部門だ。これにより、非構造化データの分析ニーズの高まりに対応していくという。 Greenplumはこれまで、オープンソース技術をベースとした、データウェアハウス/ビジネスデータ分析向けのデータベースシステムである「Greenplum Database」を提供してきた。多数のPostgreSQLインスタンスを並列に動作させてデータ処理を実行する仕組みを通じ、データロードおよびクエリ処理の高速化とスケーリングを実現し、大規模データウェアハウスを可能としている。Greenplum製品群としては現在、有償のソフトウェア製品に加え、無償の「Greenplum

    qaz76
    qaz76 2011/05/11
    EMC(ストレージ統合)とGreenplumのアーキテクチャ(シェアードナッシング)って相反する。
  • 情報爆発にいかに対応するか

    ・著=ASCII.technologies編集部 ・発行=アスキー・メディアワークス ・2011年4月 ・ISBN-10:4048705741 ・ISBN-13:978-4048705745 ・2300円+税 ※注文ページへ 近年、日々大量に生成・蓄積される情報の管理・処理が企業の一大課題となっている。めまぐるしく変わる市場環境、顧客ニーズに追従するためには、自社の業務データ、顧客データなどを迅速に処理しなければならない。特に“情報爆発”とも形容されるほど情報量が増大している今、迅速な処理を実現する上ではITシステム側にも新しい仕組みが求められている。 そうした中、注目を集めているのがHadoopとNoSQLだ。特に昨今は、Webサービス企業を中心に採用例が急増していることも手伝って、Hadoopが話題に上ることが増えたのではないだろうか。 周知の通り、Hadoopは大規模なデータを複数の

    情報爆発にいかに対応するか
    qaz76
    qaz76 2011/04/27
    『「バッチの運用スピードを劇的に向上できれば、業界全体の非効率を解決する糸口になる」し、運用管理者の生活や健康も守られる』なんかカッケー(゚∀゚ )
  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
    qaz76
    qaz76 2011/04/13
    どのような分析をしたいのか...そのためにはどのようなログが必要なのか逆算することが大事。
  • Hadoopフレームワーク「Asakusa」がOSSで公開 - @IT

    2011/03/31 ウルシステムズは3月31日、基幹業務システムのバッチを高速処理するためのフレームワーク「Asakusa Framework」の正式版をオープンソースとして公開した(発表文、GitHubのレポジトリ)。Hadoop上に基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装したもの。HadoopはJavaベースのオープンソース分散処理技術として、すでに広く利用されている一方、業務処理への適用では、導入の難しさから利用が進んでいなかった。Asakusaを使うことで、Hadoopに詳しくないエンジニアでも簡単にシステム開発ができるという。 Asakusaは、MapReduceのDSLをコンパイルする「Ashigel Compiler」、Hadoopのデータフォーマットに合わせたデータモデルを生成するジェネレータ、統合テストスイートの3つのコンポーネントからなる。Ashi

  • 日本HPがHadoop向け高密度サーバを発表 - @IT

    2011/04/05 日ヒューレット・パッカード(日HP)は4月4日、「HP ProLiant SL6500」シリーズの新機種を発表した。特に分散データ処理基盤Hadoopなど、スピード重視のデータ格納/解析に最適化したという。 SL6500シリーズは、4Uのサーバシャーシに1Uフルサイズあるいは1Uハーフサイズのコンピュータノードを組み合わせるデータセンター向けサーバシリーズ。発表されたのは、1Uハーフサイズの「HP ProLiant SL335s G7サーバー」、1Uフルサイズの「HP ProLiant SL160s G6サーバー」「HP ProLiant SL165s G7サーバー」。 Hadoopへの最適化の意味は、まず省スペースを踏まえながら実現したディスク密度にある。SL335s G7では、3.5インチで4基、2.5インチで8基のディスクを搭載でき、8TBの容量を実現できる

  • Hadoop開発準備のためのEclipseインストール - osacaz4の日記

    前回までで、Hadoopの実行環境の準備ができました。 ・第一回:Ubuntu10.04でHadoop環境構築(疑似分散編) ・第二回:HadoopのHDFS確認とサンプルプログラムの実行 ・第三回:Pigのインストール これからいよいよMapReduceを記述して行くのですが、 そのための開発環境を作成していきます。 一番慣れているのでEclipseの設定を行いますが、 もちろんTextEditorでプログラム作成してantでbuildでも問題ありません。 Eclipseのインストール Synapticでインストール Eclipseの日語化 Pleiades:http://sourceforge.jp/projects/mergedoc/releases/ 上記サイトからD/Lし、適当な場所に解凍しておく 解凍したディレクトリに移動し、以下のコマンド実行 # cp -R feature

    Hadoop開発準備のためのEclipseインストール - osacaz4の日記
  • Hiveをjdbc経由で使う方法 - brfrn169の日記

    現在、仕事でHadoopのサブプロジェクトであるHiveをいじってます。 で、今回、JDBC経由で使ってみたので紹介します。 Hiveのインストールなどの仕方は以下を参照してください。 http://wiki.apache.org/hadoop/Hive/GettingStarted まず、Hiveサーバを立ち上げます。 ポート番号はHIVE_PORTを設定しておけば、変更できます。デフォルトは10000です。 hive --service hiveserver で、以下のようなコードで、HiveにJDBCでアクセスできます。 String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; try { Class.forName(driverName); } catch (ClassNotFoundException e) { e

    Hiveをjdbc経由で使う方法 - brfrn169の日記
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
  • 1