タグ

Hadoopに関するjustoneplanetのブックマーク (50)

  • 第5回 デバッグモードを使いこなす | gihyo.jp

    前回はJava SDKを使ってAmazon Elastic MapReduceを起動する方法を説明しました。今回は、前回まで何度か出てきたデバッグモードについて説明します。 ここでは、連載の2回目から4回目までで取り上げたWeb Console、Amazon Elastic MapReduce Ruby Client、Java SDKのそれぞれでデバッグする方法を紹介します。 Web Consoleでデバッグモードを使用するには Web Consoleでは、Jobを作成する際にデバッグモードを使用するように設定しておく必要があります。具体的な設定個所は以下のとおりです。 図1 デバッグモードでの設定個所 まずは次の2点を設定してください。 「Enable Debugging」をYesにする 「Amazon S3 Log Path」にログを保存したS3のパスを記入する また「Enable H

    第5回 デバッグモードを使いこなす | gihyo.jp
  • 認証データベースへのHBase/Hadoopの適用

    1. はじめに HP IceWall SSO は、日ヒューレット・パッカード株式会社が日で開発した Webシングルサインオン製品です。1997年の販売開始より、合計4000万以上のユーザーライセンスが販売されており、日国内の市場占有率も1位となっています*1。大企業のミッションクリティカルなシステムの認証基盤としても使用されている非常に実績の高い製品です。 連載では、HP IceWall SSOの最新機能を軸とし、クラウド環境における認証システムへの新技術の適用、クラウドとの認証連携、そしてクラウドの活用事例を3回にわたり紹介していきたいと思います。 第1回はHP IceWall SSOにおける認証データベースへのHBase/Hadoopの適用に関して紹介します。 HBaseはApache Software Foundation(以下ASF)によってトップレベルプロジェクトの位置づ

  • 第10回 MapReduce処理をやってみよう![実践編] | gihyo.jp

    今回は2ちゃんねるデータを処理するという実践を行ってみます。 品詞解析ライブラリの導入 品詞解析にはいくつかのツールがありますが、今回はMeCabというツールを使用します。 MeCabのサイト URL:http://mecab.sourceforge.net/ MeCab体と、CMeCabというMeCabをJNIで使用するライブラリを導入します。 MeCab体のセットアップ mecab-0.98.tar.gzをダウンロード&展開します。 $ ./configure $ make $ make check # make install /usr/local/libにlibmecab.so.1が入ります。 辞書のセットアップ MeCabの動作には辞書が必要ですので、辞書のセットアップを行います。 mecab-ipadic-2.7.0-20070801.tar.gzをダウンロード&展開します

    第10回 MapReduce処理をやってみよう![実践編] | gihyo.jp
  • 「Hadoop徹底入門」が出ます - Preferred Networks Research & Development

    MacBook Air 11インチ欲しい!、太田です。 1/27に、執筆に関わらせて頂いた「Hadoop徹底入門」というが、翔泳社さんから出版されます。 OSS分散フレームワーク「Hadoop」の、日語では初めてとなる書き下ろしになります。執筆はNTTデータでHadoopのお仕事をされている、下垣さん、猿田さん、藤井さん、濱野さん、そして私になります。また、翔泳社の石川さんには非常にお世話になりました。 目次はこのブログの最後に掲載させて頂きました(詳細はこちら)。Hadoopとは何か?といった説明に始まり、Hadoopの周辺プロダクト(Hive, Pig, HBase, Thrift)も詳しくカバーされています。 Hadoopに関して現在日語で読める大きな情報源として有名なのは、オライリーさんから出版されている「Hadoop」になります。 書はこのと補完関係に有ると思ってい

    「Hadoop徹底入門」が出ます - Preferred Networks Research & Development
  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • 第1回 Amazon Elastic MapReduceを使う準備をする | gihyo.jp

    Amazon Elastic MapReduceとは 昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service(AWS)のElastic MapReduce(EMR)です。 図1 Amazon Elastic MapReduce AWSMapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。連載ではEMRの使い方、気をつけなければいけない点などを重点的

    第1回 Amazon Elastic MapReduceを使う準備をする | gihyo.jp
  • Robust log process

    2. はじめに 1. スケーラブルなログ集計を安全に構築するために我々が考慮していることを説明します。 2. 広告集計という特性上、「超高速にかつ高効率に!」というよりはどちらかというと「多少の非効率は目をつぶって安全側に寄せる」という設計方針になっています。 3. 上司から突然「来月から 1 日 10 億越えのアクセスをうことになるから集計システムはよろしくね♪」という日が来るかもしれないので、来たる日に備えてもらえればと思います。 4. 自己紹介 山崎大輔 Twitter: @yamaz Blog : 最速配信研究会 http://d.hatena.ne.jp/yamaz/ 現在:株式会社スケールアウト 代表 1 日数億~を超えるような配信をカジュアルに行うための 広告配信システム「 ScaleAds 」の開発と販売およびコンサル かれこれオンライン広告業界で 14 年やってます

    Robust log process
  • 第9回 MapReduce処理をやってみよう![準備編] | gihyo.jp

    MapReduce処理の向き不向き さて、前回構築したHadoop環境ですが、それを使ってのMapReduce処理の実装をしてみましょう。が、その前に、どのような処理が向いているのか確認してみたいと思います。 MapReduceは計算フレームワークですが、HDFSと組み合わせることにより、特に大規模データの分散処理に有用なものとなります(小さい入力データについて処理を分散させることも可能です⁠)⁠。 入力に使用されるデータの種類は テキスト XML バイナリ データベースから という風にいくつかの入力を受け付けることが可能です。今回はテキストファイルを入力としたMapReduceを行いたいと思います。 大規模なテキストデータ 入力となるテキストデータを今回はインターネット上のコンテンツから取得したいと思います。 2ちゃんねるという巨大掲示板サイトは、みなさんご存じかと思います。2ちゃんねる

    第9回 MapReduce処理をやってみよう![準備編] | gihyo.jp
  • 第8回 Hadoopの環境を作ってみよう! | gihyo.jp

    hadoop1:masterサーバ…NameNode/JobTracker(NFSサーバ) hadoop2, hadoop3:slaveサーバ…DataNode/TaskTracker(NFSクライアント) NameNode, DataNodeはHDFSのための機能→masterサーバ JobTracker, TaskTrackerはMapReduceのための機能→slaveサーバ NFSはhadoopの設定やプログラムを共通で使用するために導入します(導入の手間を軽減するため⁠)⁠。 図1 システム構成図 それでは構築作業を進めていきます。 NFSディレクトリの作成 hadoop1に/usr/local/apach_projディレクトリを作成します。このディレクトリにはhadoopnのバイナリや設定ファイルが置かれ、hadoop2, hadoop3から共通に使用されることになります。NF

    第8回 Hadoopの環境を作ってみよう! | gihyo.jp
  • マイクロソフトのHadoop対抗「Dryad」がベータテスト開始

    マイクロソフトは、Windows HPC Serverのクラスタ上で動作する「Dryad」のベータ公開を開始したことを発表しました。 Dryad Beta Program Starting - The Windows HPC Team Blog - Site Home - TechNet Blogs Dryadは、オープンソースとして公開されている大規模並列バッチ処理ソフトウェアのHadoopに対抗するものといわれています。Hadoopは、いままで高価格なハードウェアとソフトウェアが必要とされていたビジネスインテリジェンスなどの大量データ分析を、安価なハードウェアのクラスタとオープンソースという破壊的な低価格と高い処理能力をもたらしたことで注目されています。 DryadとHadoopの違いは? 発表によると、今回ベータ公開されたのは、Windows HPC Server 2008 R2 S

    マイクロソフトのHadoop対抗「Dryad」がベータテスト開始
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • 「Application Performance2010」でご紹介したHadoop講演資料を公開します

    11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。 当日はたくさんの方におこしいただき、ありがとうございます。 ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    「Application Performance2010」でご紹介したHadoop講演資料を公開します
  • CentOS に Hadoop, Pig, Hive, HBase をインストール - (゚∀゚)o彡 sasata299's blog

    2010年07月12日20:12 CentOS に Hadoop, Pig, Hive, HBase をインストール CentOS5.4 に Hadoop, Pig, Hive, HBase をインストールする備忘録です。まずは JDK をインストールします。JDK6 以上が必要です。 # http://java.sun.com/javase/ja/6/download.html から JDK6 をダウンロード sudo sh jdk-6u21-linux-i586-rpm.bin java -version # 1.6.0_21 次に、yum で簡単にインストールするために、リポジトリを追加します。これでインストールが格段に楽になりますね。 wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo sudo mv clo

  • HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた

    Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。 負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model(一貫性モデル)を備えている 自動ロードバランス、フェイルオーバー、圧縮機能 サーバーごとに数十個のシャードを割り当て可能、などなど このHBaseはどのようなデータベースなのでしょうか? 情報を集めてみました。 HBase入門のプレゼンテーション 最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン

    HBaseとはどんなNoSQLデータベースなのか? 日本語で読める情報を集めてみた
  • Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった

    Facebookが15日に発表した新しいサービス「Facebook Messages」は、チャットやつぶやき、そして電子メールなど、自分宛のテキストやメッセージをすべて1つのインボックスで管理できると発表されました。 同社が15カ月かけて開発してきたこの新サービスのバックエンドデータベースは、これまで同社が大規模運用してきたMySQLでも、同社が開発したNoSQLデータベースのCassandraでもなく、グーグルのBigTableをモデルとしてオープンソースで開発された分散データベース「HBase」でした。 Facebookのソフトウェアエンジニア、Kannan Muthukkaruppan氏がFacebookにポストした記事「The Underlying Technology of Messages」で、その技術的背景が紹介されています。 MySQLとCassandraが落選した理由 H

    Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった
  • 「Application Performance2010」にてHadoopの講演を行います。

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 11月16日に「Application Performance2010」というイベントが東京ミッドタウンにて開催されます。 “仮想化・クラウド時代のITインフラ最適化”をテーマに、最新事例を紹介する各種セミナーに参加できます。 「Application Performance2010」 イベントにおいて、Yahoo! JAPANもHadoopについて講演させていただきます。Yahoo! JAPANによるセッションの詳細は以下の通りです。 ■開催日時 11月16日 16時55分~17時40分 ■セッションタイトル Hadoop~Yahoo! JAPANでの活用について~ ■概要 今話題のオープンソースの大規模分散データ処理システム

    「Application Performance2010」にてHadoopの講演を行います。
  • リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey

    Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY

    リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey
  • Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表

    Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表 業務アプリケーションによるソーシャル機能の取り込み、NoSQLによるスケーラブルなデータベース、Hadoopによる分散データ処理。これらはエンタープライズITの新たなテクノロジートレンドですが、これらをすべて取り入れた業務アプリケーション用のプラットフォームを、NTTデータイントラマートが開発中であることを明らかにしました。 NTTデータイントラマートが先週10月22日に行った同社のイベント「intra-mart Enterprise Web Solution 2010」で、同社が開発中の業務アプリケーションフレームワーク「intra-mart WebPlatform Ver8.0」のデモンストレーションを公開。そこには、Twitterライクなタイムライン、NoS

    Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表
  • Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010

    先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日からも30名程度が参加しました。 このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。 この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。 3種類のデータベースとHadoopを比較 リクルート MIT United システム基盤室エグゼクティブマネージャー 米谷修氏。

    Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010
  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ