[B! Hadoop] [2ページ] justoneplanetのブックマーク

justoneplanet id:justoneplanet

Hadoopに関するjustoneplanetのブックマーク (50)

第5回　デバッグモードを使いこなす | gihyo.jp
前回はJava SDKを使ってAmazon Elastic MapReduceを起動する方法を説明しました。今回は、前回まで何度か出てきたデバッグモードについて説明します。ここでは、連載の2回目から4回目までで取り上げたWeb Console、Amazon Elastic MapReduce Ruby Client、Java SDKのそれぞれでデバッグする方法を紹介します。 Web Consoleでデバッグモードを使用するには Web Consoleでは、Jobを作成する際にデバッグモードを使用するように設定しておく必要があります。具体的な設定個所は以下のとおりです。図1　デバッグモードでの設定個所まずは次の2点を設定してください。「Enable Debugging」をYesにする「Amazon S3 Log Path」にログを保存したS3のパスを記入するまた「Enable H
justoneplanet 2011/02/11
amazon

hadoop

大規模計算
リンク
認証データベースへのHBase/Hadoopの適用
1. はじめに HP IceWall SSO は、日本ヒューレット・パッカード株式会社が日本で開発した Webシングルサインオン製品です。1997年の販売開始より、合計4000万以上のユーザーライセンスが販売されており、日本国内の市場占有率も1位となっています＊1。大企業のミッションクリティカルなシステムの認証基盤としても使用されている非常に実績の高い製品です。本連載では、HP IceWall SSOの最新機能を軸とし、クラウド環境における認証システムへの新技術の適用、クラウドとの認証連携、そしてクラウドの活用事例を3回にわたり紹介していきたいと思います。第1回はHP IceWall SSOにおける認証データベースへのHBase／Hadoopの適用に関して紹介します。 HBaseはApache Software Foundation（以下ASF）によってトップレベルプロジェクトの位置づ
justoneplanet 2011/02/06
認証

シングルサインオン

sso

hadoop

HBase
リンク
第10回　MapReduce処理をやってみよう！［実践編］ | gihyo.jp
今回は2ちゃんねるデータを処理するという実践を行ってみます。品詞解析ライブラリの導入品詞解析にはいくつかのツールがありますが、今回はMeCabというツールを使用します。 MeCabのサイト URL：http://mecab.sourceforge.net/ MeCab本体と、CMeCabというMeCabをJNIで使用するライブラリを導入します。 MeCab本体のセットアップ mecab-0.98.tar.gzをダウンロード＆展開します。 $ ./configure $ make $ make check # make install /usr/local/libにlibmecab.so.1が入ります。辞書のセットアップ MeCabの動作には辞書が必要ですので、辞書のセットアップを行います。 mecab-ipadic-2.7.0-20070801.tar.gzをダウンロード＆展開します
justoneplanet 2011/01/28
MapReduce

hadoop
リンク
「Hadoop徹底入門」が出ます - Preferred Networks Research & Development
MacBook Air 11インチ欲しい！、太田です。 1/27に、執筆に関わらせて頂いた「Hadoop徹底入門」という本が、翔泳社さんから出版されます。 OSS分散フレームワーク「Hadoop」の、日本語では初めてとなる書き下ろし本になります。執筆はNTTデータでHadoopのお仕事をされている、下垣さん、猿田さん、藤井さん、濱野さん、そして私になります。また、翔泳社の石川さんには非常にお世話になりました。目次はこのブログの最後に掲載させて頂きました(詳細はこちら)。Hadoopとは何か？といった説明に始まり、Hadoopの周辺プロダクト(Hive, Pig, HBase, Thrift)も詳しくカバーされています。 Hadoopに関して現在日本語で読める大きな情報源として有名なのは、オライリーさんから出版されている「Hadoop」本になります。本書はこの本と補完関係に有ると思ってい
justoneplanet 2011/01/25
hadoop

book
リンク
グーグル発「Hadoop」、日本企業も利用へ
Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ
justoneplanet 2011/01/18
分散処理

Hadoop
リンク
第1回　Amazon Elastic MapReduceを使う準備をする | gihyo.jp
Amazon Elastic MapReduceとは昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service（AWS）のElastic MapReduce（EMR）です。図1　Amazon Elastic MapReduce AWS、MapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。本連載ではEMRの使い方、気をつけなければいけない点などを重点的
justoneplanet 2011/01/17
amazon

ec2

Hadoop

AWS

EMR

MapReduce

分散処理
リンク
Robust log process
Jan 16, 2011Download as PPT, PDF7 likes2,926 views
justoneplanet 2011/01/17
分散

hadoop

adServer

analyze

log
リンク
第9回　MapReduce処理をやってみよう！［準備編］ | gihyo.jp
MapReduce処理の向き不向きさて、前回構築したHadoop環境ですが、それを使ってのMapReduce処理の実装をしてみましょう。が、その前に、どのような処理が向いているのか確認してみたいと思います。 MapReduceは計算フレームワークですが、HDFSと組み合わせることにより、特に大規模データの分散処理に有用なものとなります（小さい入力データについて処理を分散させることも可能です⁠）⁠。入力に使用されるデータの種類はテキスト XML バイナリデータベースからという風にいくつかの入力を受け付けることが可能です。今回はテキストファイルを入力としたMapReduceを行いたいと思います。大規模なテキストデータ入力となるテキストデータを今回はインターネット上のコンテンツから取得したいと思います。 2ちゃんねるという巨大掲示板サイトは、みなさんご存じかと思います。2ちゃんねる
justoneplanet 2011/01/12
MapReduce

hadoop

データマイニング
リンク
第8回　Hadoopの環境を作ってみよう! | gihyo.jp
hadoop1：masterサーバ…NameNode/JobTracker（NFSサーバ） hadoop2, hadoop3：slaveサーバ…DataNode/TaskTracker（NFSクライアント） NameNode, DataNodeはHDFSのための機能→masterサーバ JobTracker, TaskTrackerはMapReduceのための機能→slaveサーバ NFSはhadoopの設定やプログラムを共通で使用するために導入します（導入の手間を軽減するため⁠）⁠。図1　システム構成図それでは構築作業を進めていきます。 NFSディレクトリの作成 hadoop1に/usr/local/apach_projディレクトリを作成します。このディレクトリにはhadoopnのバイナリや設定ファイルが置かれ、hadoop2, hadoop3から共通に使用されることになります。NF
justoneplanet 2010/12/31
hadoop

環境

構築
リンク
マイクロソフトのHadoop対抗「Dryad」がベータテスト開始
マイクロソフトは、Windows HPC Serverのクラスタ上で動作する「Dryad」のベータ公開を開始したことを発表しました。 Dryad Beta Program Starting - The Windows HPC Team Blog - Site Home - Tech Net Blogs Dryadは、オープンソースとして公開されている大規模並列バッチ処理ソフトウェアのHadoopに対抗するものといわれています。Hadoopは、いままで高価格なハードウェアとソフトウェアが必要とされていたビジネスインテリジェンスなどの大量データ分析を、安価なハードウェアのクラスタとオープンソースという破壊的な低価格と高い処理能力をもたらしたことで注目されています。 DryadとHadoopの違いは？発表によると、今回ベータ公開されたのは、Windows HPC Server 2008 R2 S
justoneplanet 2010/12/22
microsoft

hadoop

dryad

分散

コンピューティング
リンク
Hadoop MapReduceプログラムを解剖する
オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します（その他には、Pig、Hive、JAQLといったものがあります）。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。
justoneplanet 2010/12/03
MapReduce

hadoop
リンク
「Application Performance2010」でご紹介したHadoop講演資料を公開します
11月16日に「Application Performance2010」というイベントでHadoopについて講演させていただきました。当日はたくさんの方におこしいただき、ありがとうございます。ここでは、当日講演で使用したプレゼン資料をご紹介させていただきます。 ●Hadoop　～Yahoo! JAPANの活用について～ヤフー株式会社 R&D統括本部角田直行、吉田一星
justoneplanet 2010/11/29
yahoo

hadoop

slide
リンク
CentOS に Hadoop, Pig, Hive, HBase をインストール - (ﾟ∀ﾟ)o彡 sasata299's blog
2010年07月12日20:12 CentOS に Hadoop, Pig, Hive, HBase をインストール CentOS5.4 に Hadoop, Pig, Hive, HBase をインストールする備忘録です。まずは JDK をインストールします。JDK6 以上が必要です。 # http://java.sun.com/javase/ja/6/download.html から JDK6 をダウンロード sudo sh jdk-6u21-linux-i586-rpm.bin java -version # 1.6.0_21 次に、yum で簡単にインストールするために、リポジトリを追加します。これでインストールが格段に楽になりますね。 wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo sudo mv clo
justoneplanet 2010/11/26
yum

hadoop

pig

hbase

hive

インストール

centos

install

hBase

jdk
リンク
HBaseとはどんなNoSQLデータベースなのか？日本語で読める情報を集めてみた
Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model（一貫性モデル）を備えている自動ロードバランス、フェイルオーバー、圧縮機能サーバーごとに数十個のシャードを割り当て可能、などなどこのHBaseはどのようなデータベースなのでしょうか？情報を集めてみました。 HBase入門のプレゼンテーション最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン
justoneplanet 2010/11/24
facebook

hBase

hbase

Hadoop

データベース

Cassandra

DB

KVS
リンク
Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった
Facebookが15日に発表した新しいサービス「Facebook Messages」は、チャットやつぶやき、そして電子メールなど、自分宛のテキストやメッセージをすべて1つのインボックスで管理できると発表されました。同社が15カ月かけて開発してきたこの新サービスのバックエンドデータベースは、これまで同社が大規模運用してきたMySQLでも、同社が開発したNoSQLデータベースのCassandraでもなく、グーグルのBigTableをモデルとしてオープンソースで開発された分散データベース「HBase」でした。 Facebookのソフトウェアエンジニア、Kannan Muthukkaruppan氏がFacebookにポストした記事「The Underlying Techno logy of Messages」で、その技術的背景が紹介されています。 MySQLとCassandraが落選した理由 H
justoneplanet 2010/11/18
Facebook

MySQL

Cassandra

HBase

hadoop

kvs

mysql

cassandra

hBase

facebook
リンク
「Application Performance2010」にてHadoopの講演を行います。
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 11月16日に「Application Performance2010」というイベントが東京ミッドタウンにて開催されます。 “仮想化・クラウド時代のITインフラ最適化”をテーマに、最新事例を紹介する各種セミナーに参加できます。「Application Performance2010」本イベントにおいて、Yahoo! JAPANもHadoopについて講演させていただきます。Yahoo! JAPANによるセッションの詳細は以下の通りです。 ■開催日時 11月16日　16時55分～17時40分 ■セッションタイトル Hadoop～Yahoo! JAPANでの活用について～ ■概要今話題のオープンソースの大規模分散データ処理システム
justoneplanet 2010/11/09
Hadoop

event
リンク
リアルタイムなHadoop？「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開－ Publickey
米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。リアルタイムなMapReduceで何ができる？リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか？ S4の公開を表明したY
justoneplanet 2010/11/04
hadoop

MapReduce

S4

Yahoo

RealTime
リンク
Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表
Cassandra、Hadoopを用い、ソーシャル機能も備えた業務アプリケーション基盤、NTTデータイントラマートが開発を発表業務アプリケーションによるソーシャル機能の取り込み、NoSQLによるスケーラブルなデータベース、Hadoopによる分散データ処理。これらはエンタープライズITの新たなテクノロジートレンドですが、これらをすべて取り入れた業務アプリケーション用のプラットフォームを、NTTデータイントラマートが開発中であることを明らかにしました。 NTTデータイントラマートが先週10月22日に行った同社のイベント「intra-mart Enterprise Web Solution 2010」で、同社が開発中の業務アプリケーションフレームワーク「intra-mart WebPlatform Ver8.0」のデモンストレーションを公開。そこには、Twitterライクなタイムライン、NoS
justoneplanet 2010/10/26
Cassandra

Hadoop

ソーシャル機能

業務アプリケーション

NTTデータ
リンク
Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010
先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日本でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。 3種類のデータベースとHadoopを比較リクルート MIT United システム基盤室エグゼクティブマネージャー米谷修氏。
justoneplanet 2010/10/19
database

データベース

hadoop

比較

可用性

スケーラビリティ
リンク
IBM版Hadoopでクラスターを簡単セットアップ
はじめに IBM版Apache Hadoop（英語名：IBM Distribution of Apache Hadoop / 通称：IDAHO）とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。本記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複
justoneplanet 2010/10/18
IBM

hadoop
リンク
前のページ 1 2 3 次のページ