タグ

Hadoopに関するzonoiseのブックマーク (25)

  • ブレインパッド、Hadoopフレームワーク「Huahin Framework」をオープンソースソフトウェアとして公開

    ホーム ニューストップ ニュース(ニュースリリース) ブレインパッド、Hadoopフレームワーク「Huahin Framework」をオープンソースソフトウェアとして公開 ブレインパッド、Hadoopフレームワーク「Huahin Framework」をオープンソースソフトウェアとして公開 〜大規模データ分析に必要な開発工数を従来の約1/3〜1/5に削減〜 株式会社ブレインパッド(社:東京都品川区、代表取締役社長:草野 隆史、東証マザーズ証券コード:3655、以下ブレインパッド)は、大規模データ分析に特化した独自の「Hadoop MapReduce」フレームワークである 「Huahin(ホアヒン)Framework(注1)」をオープンソースソフトウェアとして公開しました。 ■「Huahin Framework」の概要 「Huahin Framework」は、大規模データを「Hadoop」で

    ブレインパッド、Hadoopフレームワーク「Huahin Framework」をオープンソースソフトウェアとして公開
  • Legacy Communities - IBM Community

    If you’re looking for a developerWorks forum — Don't panic! You are in the right place. You are here because specific IBM developerWorks forums, blogs and other Connections content have been decommissioned. This page will help you find the content you are looking for, get answers to your questions, and find a new community to call home. Where am I? You are on the IBM Community area, a collection o

  • HBase 入門 (1) - こども(てれび)

    Hadoop と HBase で分散処理が書けるのはわかったけど、いざ使ってみるとなるとドキュメントが少なくて……、というあなたの為の HBase 入門、今回はセットアップから JavaAPI で HBase を触るまでを勉強します。 使用するバージョンは Hadoop 0.17.2.1、HBase 0.2.1 です。 0. 参考ページ http://hadoop.apache.org/core/docs/r0.17.2/ FrontPage - Hadoop Wiki http://hadoop.apache.org/core/docs/r0.17.2/api/index.html Hbase - Hadoop Wiki http://hadoop.apache.org/hbase/docs/r0.2.1/api/index.html 1. Hadoop のセットアップ http:

    HBase 入門 (1) - こども(てれび)
  • 1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)

    (参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・UbuntuやdebianのLinux環境1台(手元ではUbuntu Server 11.04/10.04/9.10/8.04, debian 5あたりで試していますが、他バージョンでも大丈夫だと思います) ・インターネット接続 ・Sun(Oracle)のJavaパッケージ(aptでインターネットからインストール) ・Cloudera社のCDH3のHadoopパッケージ(aptでインターネットからインストール) 作業手順 1. インストール: Linux環境にて、rootで作業します。 sudo su 1-1. Sun(Oracle)のJavaを入れます。(Sun(Oracle)のものが必要です。) ※ ここで、ubuntu 10や11の人は/etc

    1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)
    zonoise
    zonoise 2012/08/23
    完全分散
  • Debian 5.0 (lenny)にHadoopを完全分散モードでインストール - 森薫の日記

    Hadoop | 01:36 | 以下のサイトの通りに進めて行きます。Cloudera Distribution for Hadoop (Fully Distributed)のインストール例として、3台構成のクラスタを構築します。192.168.1.10マスター192.168.1.11スレーブ192.168.1.12スレーブ 1. JavaのインストールDebian 5.0 (lenny)にSun Java6をインストール/etc/profileにJAVA_HOME関連の設定を書くと簡単です。 JAVA_HOME="/usr/lib/jvm/java-6-sun" CLASSPATH=".:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar" export JAVA_HOME CLASSPATH 2. HadoopのインストールDebian 5.0

    zonoise
    zonoise 2012/08/23
    完全分散
  • Big Data Analytics with R and Hadoop

  • 3 Tutorials on Using R with Hadoop - SiliconANGLE

  • Hadoopソースコードリーディング第6回 - 科学と非科学の迷宮

    概要 イベント名 Hadoopソースコードリーディング第6回 URL http://atnd.org/events/10425 日時 2010/12/17 19:00 - 21:30 場所 楽天株式会社 関連リンク twitterハッシュタグ #hadoopreading Ust http://www.ustream.tv/recorded/11480862 Togetter http://togetter.com/li/80707 (私の記事は個人的なメモで、間違った部分も多いため併読することをおすすめします) NTTデータ 山下真一さん Hadoop World NYC 2010 レポート Hadoop World NYC 2010 に参加して、気になった講演などの紹介など。 HW2010 基礎データ Cloudera 主催 900名参加 HW2009は500名ぐらい 日人は3〜40

    Hadoopソースコードリーディング第6回 - 科学と非科学の迷宮
  • PageRank implementation in Pig

    In this post I’m going to give a very simple example of how to use Pig embedded in Python to implement the PageRank algorithm. It goes in a little more details on the same example given in the presentation I gave at the Pig user meetup. If you are interested, Daniel just published a nice K-Means implementation on the HortonWorks blog. 1. What is Pig embedded Pig 0.9 supports running Python scripts

    PageRank implementation in Pig
  • Hiveで整形されていないログを集計する方法

    タムタムです。Hadoop アドベントカレンダーの12/24分 を書かせていただきます。 それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください>< さて、まずはじめに・・。 ログが整形されているなんて都市伝説です。 自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。 適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。 となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。 例えば、以下のようなログがあるとします。

    Hiveで整形されていないログを集計する方法
  • Mac上で手軽にMapReduceする環境を構築するメモ - nozaq's diary

    Macのローカル上で手軽にMapReduceジョブ開発をしたくなったので色々やってみた. Cloudera社がHadoopが動作するLinuxのVMイメージを提供しているので, Macの環境を汚さずにHadoop環境がローカルに構築できます. CDH3のVMイメージをダウンロード. 僕はVMWare Fusion用をダウンロードしましたが、 VirtualBox用イメージもあるのでフリーで環境構築できるはず. CDH3用のHadoop Eclipse Pluginをダウンロード. Hadoop Eclipse PluginはHadoopをソースからビルドすると生成されるんですが(参考),CDH3にバンドルされているHadoopとの接続に問題があるらしいので代わりにこちらをダウンロード. Hadoop Eclipse Pluginをインストール. eclipseホームディレクトリ以下のplu

    Mac上で手軽にMapReduceする環境を構築するメモ - nozaq's diary
  • Oozieの紹介

    Oozieのワークフローはパラメータ化(ワークフロー定義の${inputDir}のような変数を使って)できます。ワークフローのジョブを実行する場合は、パラメータの値を提供する必要があります。適切にパラメータ化(例えば出力ディレクトリを別にする)できれば複数の独立したワークフロージョブを同時に実行できます。 要求に従って実行できるワークフローもありますが、ほとんどのワークフローは一定間隔で定期的に実行されます。また、データの利用可能性や外部イベントに従って実行されることもあります。Oozie Coordinatorを使えばユーザはこれらのパラメータに従ってワークフローの実行を定義できます。また、述語の形式でワークフロー実行トリガをモデル化することができます。この述語はデータや時間、外部イベントを参照できます。この述語が満たされた場合にワークフロージョブが実行されます。 また、定期的かつ不規則

  • 分析技術編:Hadoopへの期待と課題

    >>前回 この連載では、ビッグデータの収集から格納までのシステムデザインについて概観してきた。最終回は締めくくりとして、分析技術の課題と今後の方向性を考えてみる。 ビッグデータにおける分析技術の課題 分析技術の課題を考えるために、前回取り上げたECサイトの消費者行動ログデータの分析を想定してみる。図1は、割引率と売上額の相関だけでなく、購入時に表示されていた口コミ情報がどの程度の影響を与えるかを分析する例を示したものだ。この例では、口コミ評価が高いと、割引率に関係なく売上額が高いことを示している(右グラフの円の大きさは売上額の大きさを示す)。 このような分析を行う場合、1回のデータベース検索だけでは結果を出せないため、次のような複数の処理ステップが必要となる。 (1)1画面に含まれる複数の口コミ評価から、価格に関する評価を除外し、総合評価指数を算出する。 (2)会員向け割引を加算するなど割

    分析技術編:Hadoopへの期待と課題
  • ログ解析を支えるNoSQLの技術

    Kubernetesでの性能解析 ~なんとなく遅いからの脱却~ (Kubernetes Meetup Tokyo #33 発表資料) 2020/08/26 NTT DATA Yasuhiro Horiuchi

    ログ解析を支えるNoSQLの技術
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」を開発、オープンソース化して提供開始

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」を開発、オープンソース化して提供開始 ウルシステムズ株式会社(社:東京都中央区、代表取締役社長:漆原 茂、以下 ウルシステムズ)は、基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク 「Asakusa Framework(以下、Asakusa)」を業界で初めて開発、オープンソース化して提供することを発表します。 クラウド技術の普及が進むと共に、企業内システムへの適用の検討が進んでいます。特にHadoop(注1)は、オープンソースの分散処理基盤ソフトウェアとして注目を浴びており、大容量データを多数のサーバーに分散し並列処理させることで高速なデータ処理を実現できます。しかしこれまでは、Webデータの分析や消費者の行動解析などのB2C分野での利用がほとんどであり、企業の基幹業務システムに適用す

    ウルシステムズ、業界初、基幹バッチ用のHadoopフレームワーク「Asakusa」を開発、オープンソース化して提供開始
  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • Hadoop Tutorial - YDN

    Yahoo! Hadoop Tutorial Table of Contents Welcome to the Yahoo! Hadoop Tutorial. This tutorial includes the following materials designed to teach you how to use the Hadoop distributed data processing environment: Hadoop 0.18.0 distribution (includes full source code) A virtual machine image running Ubuntu Linux and preconfigured with Hadoop VMware Player software to run the virtual machine image A

  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
  • Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010

    先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日からも30名程度が参加しました。 このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。 この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。 3種類のデータベースとHadoopを比較 リクルート MIT United システム基盤室エグゼクティブマネージャー 米谷修氏。

    Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010