前回の「ビッグデータ分析に必要な性能を満たすインフラの条件とは?」に続き、ビッグデータの分析基盤を構築した企業を紹介する。ビッグデータが大規模な検索エンジンや巨大なソーシャルネットワークというルーツから離れて新たな展開を見せるのに伴い、多くの... 続きを読む
Hadoopとは 概要 ここではHadoopとはどういったソフトウェアなのかを、イメージ重視でざっくりと説明します。 @Author mwSoft @Date 2011/10/23 @Env Hadoop0.20 Hadoopについて Hadoopはご存知の通り、複数のマシンで分散して処理を行うためのフレームワークで... 続きを読む
低予算で楽しむ自宅Hadoopサーバ with Scala ※書きかけです。予告なく直したりします。 概要 このコンテンツのコンセプトとか大枠の流れとか Hadoopとは Hadoopとはどんなものかをぼんやりと説明 擬似分散モードのHadoop導入 1台構成の擬似分散モードの導入手... 続きを読む
オープン系の歴史は、基本的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux? おもちゃですね。Java? 飲めるの?Object指向? 品質高いの? ・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。J... 続きを読む
川前徳章 Hadoopは大規模なデータを扱うバッチ処理に適したシステムですが,では実際にどのようなケースで使われるとうまく「嵌る」のでしょうか? ここでは,さまざまなWebのサービスで利用されるレコメンドシステムの構築を例にとってご紹介します。 続きを読む
######################################################### NOTE: Repost The ubuntu project “ensemble” is now publicly known as “juju”. This is a repost of an older article Painless Hadoop / Ubuntu / EC2 to reflect the new names and updates... 続きを読む
######################################################### NOTE: Repost The ubuntu project “ensemble” is now publicly known as “juju”. This is a repost of an older article Monitoring Hadoop Benchmarks TeraGen/TeraSort with Ganglia to refle... 続きを読む
A while back I started experimenting with Ensemble Juju and was intrigued by the notion of services instead of machines. A bit of background on Ensemble Juju from their website: Formerly called Ensemble, juju is DevOps DistilledTM. Through th... 続きを読む
Hadoopなんかすごいイベントだった。User Group主催のイベントなのに2ホールを1日貸し切り(というか施設まるごと貸切)でキャパシティ1400人のイベントとかどういうこと。しかも無料参加なのにランチボックスとか飲み物とか出てた。意味がわからん。カネのあると... 続きを読む
2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちり... 続きを読む
筆者らは、オープンソースソフトウエアの分散処理ミドルウエア「Hadoop」を、基幹系のバッチ処理システムに適用するためのフレームワーク「Asakusa」を開発した。AsakusaはHadoopと同様に、オープンソースソフトウエアとして公開する。公開日は、本連載の4回目... 続きを読む
Facebook did it again. They've built another system capable of doing something useful with ginormous streams of realtime data. Last time we saw Facebook release their New Real-Time Messaging System: HBase To Store 135+ Billion Messages A Mont... 続きを読む
Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per D... 続きを読む
「送信する」をクリックすることにより、お客様は developerWorks のご使用条件に同意したことになります。 ご使用条件を読む。 developerWorks に初めてサインインすると姓名と developerWorks に登録した際に特定したディスプレイ・ネームを含むプロフィール... 続きを読む
というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの... 続きを読む
Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010 先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。 イベン... 続きを読む
米Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1ク... 続きを読む
A common question on the Apache Hadoop mailing lists is what’s going on with availability? This post takes a look at availability in the context of Hadoop, gives an overview of the work in progress and where things are headed. Background Whe... 続きを読む
USBで、ブートするだけで、Hadoopの分散環境がテストできる Live-USBを作成してみます。今回は、マスターノードとなるUSBの基礎の部分に、Hadoop(CDH3)をインストールし分散環境の設定で、Live-USBを動かします。Serverで、USBを使う場合ですが、接続後に、 d... 続きを読む
ubuntu 10.04 LTS via:Hadoop (CDH3) Quick Start Guide – Documentation – Cloudera Wiki sun-javaがリポジトリからなくなったので外部リポジトリを利用 sudo aptitude install python-software-properties sudo add-apt-repository 'deb http://archive.can... 続きを読む
この記事はClouderaのBlogの記事”Hadoop Availability | Apache Hadoop for the Enterprise | Cloudera”の私的翻訳です。Hadoopの可用性については興味のある方も多いと思いますので、読むついでに訳してみました。勢いで訳したので質に関しては責任を持てま... 続きを読む
ITはお金をもらう以上、お金を払う人が何を必要としているのか?なぜ必要としているのか?が最初の出発点であり、かつ、最後の終着駅であるわけ。んで、この事を知らないIT屋さんいないわけ。でもこれは、「行って、その場で聞けば良い」というナイーブなもので... 続きを読む
ウルシステムズ株式会社(本社:東京都中央区、代表取締役社長:漆原 茂、以下 ウルシステムズ)は、基幹業務システムのバッチを高速処理するためのソフトウェアフレームワーク 「Asakusa Framework(以下、Asakusa)」を業界で初めて開発、オープンソース化し... 続きを読む
日時 / DATE : 2011/02/25 18:30 to 22:00 定員 / LIMIT : 50 人 会場 / PLACE : インテック東京本社 (東京都江東区新砂1-3-3) URL / URL : http://www.intec.co.jp/cov/map/map02.html 管理者 / ADMIN : okachimachiorz1 Ashigelコンパイラの勉強会です。 As... 続きを読む
2011年2月9日、Hadoopを利用した基幹業務システム向けの分散ソフトウェアフレームワーク「Asakusa Framework」が発表されました。 「Asakusa DSL」と呼ばれる言語でバッチ処理を記述し、「Ashigelコンパイラ」によってJavaコードに変換するそうです。 続きを読む
Quoraでこんな質問を見つけたので適当に翻訳してみました。Would Hadoop be different if it were coded in C/C++ instead of Java? How? - Quora 回答1実際のところ難しいけど、考えてみるのは楽しいね。 実行時間は速くなると思うけど、それが決定的な違いに... 続きを読む
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing, including: Hadoop Core, our flagship sub-project, provides a distributed filesystem (HDFS) and support for the MapReduce distributed comput... 続きを読む
もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオー... 続きを読む
トップページ > ニュースリリース > 2010年 > 2010年10月13日 大規模データ処理基盤Hadoopのさらなる普及を目指しNTTデータと米国Cloudera社が協業 株式会社NTTデータは、オープンソースの大規模データ処理基盤ソフトウエアHadoopの普及を加速するために、米国C... 続きを読む
2010年7月 1日オープンソースの分散処理基盤Hadoopの構築・運用ソリューションを提供開始〜NTTデータのクラウドサービス「BizXaaS®」の新たなラインナップとして提供〜 株式会社NTTデータは、「BizXaaS®注」(ビズエクサース)の「クラウド構築サービス」のライ... 続きを読む
Hadoop | 01:36 | 以下のサイトの通りに進めて行きます。Cloudera Distribution for Hadoop (Fully Distributed)のインストール例として、3台構成のクラスタを構築します。192.168.1.10マスター192.168.1.11スレーブ192.168.1.12スレーブ 1. Javaのインストール... 続きを読む
今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。Had... 続きを読む
日時:2010年7月16日 20:10 開始予定 テーマ:分散・並列処理・クラウド 20:10頃 IaaSシステム構築のポイント 株式会社ライブドア 執行役員CTA 伊勢 幸一様 仮想マシンや仮想ネットワークなどの技術的概要とライブドアのクラウドっぽいホスティングサービス... 続きを読む
Hadoopソースコードリーディング第5回 : ATNDHadoopreading05 data intensive3View more presentations from nokuno. 以下の資料の紹介です。Jimmy Lin » Data-Intensive Text Processing with MapReduce 続きを読む
NTTデータさんの実証実験の報告書すごい。なんで今まで見逃してたんだろう… http://bit.ly/aBkKsA #hadoopreading 5:31 PM Sep 16th TweetDeckから 22人がリツイート 続きを読む
Hadoopソースコードリーディングで発表します - nokunoの日記 のスライドを眺めながら,「メモリを有効利用するのは MapReduce でも重要だよね」などとぼんやりと思いました.以前,N-gram コーパスの作成に MapReduce を試したとき,並列に実行されるプロセス... 続きを読む
Hadoop, Debian | 16:32 | まず、Sun Java6をインストールします(Debian 5.0 (lenny)にSun Java6をインストール)。/etc/apt/source.listにClouderaのリポジトリを追加します。 deb http://archive.cloudera.com/debian lenny-cdh3 contrib deb-src http://archi... 続きを読む
ミツバチワークスのエンジニアは、「月間57億PV」という巨大なトラフィックをさばくため、さまざまな技術を駆使してインフラを構築している。主と副の2本立てでデータベースを運用し、300台のサーバを使いながら「負荷の限界」に挑むエンジニアに、技術ノウハウ... 続きを読む
日時 / DATE : 2010/06/28 19:00 定員 / LIMIT : 60 人 会場 / PLACE : 楽天株式会社 (東京都品川区東品川4-12-3品川シーサイド楽天タワー) URL / URL : http://corp.rakuten.co.jp/company/map/shinagawa.html 管理者 / ADMIN : shot6 Hadoopのソースコード... 続きを読む
何度も構築しているとたまに忘れてしまうので、備忘録として記載します。今行っている研究室での導入用教材にも転用。OSのインストールからHadoopのインストールまで駆け足で解説します。 以下の環境が前提です。(ホストOSや仮想環境は他でも可)ホストOS:Mac O... 続きを読む
Hadoop, eventHadoop の勉強会が大阪であるということで、行ってきました。その時に取ったメモを公開しておきます。体調が激悪で頭痛と闘いながだったので色々と抜けがありますが... *1オープンソースの MapReduce /分散ストレージ実装、Hadoop の紹介 by 玉川... 続きを読む
前回は、Hadoopがどのような仕組みでスケール・アウト性を実現しているのかを述べました。また、Hadoopが基本的に、バッチ処理のスループットの向上を目的にしていることを指摘しました。 Hadoopには、「できること」と「できないこと」があります。処理の性質... 続きを読む
こんにちは。広報スタッフの楢崎です。 このたび、技術評論社さんと協同で、Open TechTalk「Hadoop Hack Night」を開催することなりました。開催日は3月8日(月)、19時〜21時です。 イベントの詳細はこちらをご覧ください。 http://gihyo.jp/event/2010/hadoop... 続きを読む
現在,米国Yahoo! Hadoopチームにてアーキテクトを務めるOwen O’Malleyが3月に来日いたします。それに合わせてHadoopの紹介,米国Yahoo!での活用事例などご紹介するセミナーを開催いたします。当日は参加者の方々とのトークセッションを設け,Hadoopコミュニテ... 続きを読む
今度HadoopのコミッターOwen O’Malleyが来日するということで、 「”Open TechTalk” Hadoop Hack Night」が開催されます。 http://gihyo.jp/event/2010/hadoophn なんとトークセッションのパネリストになってしまいました。 他の人がすごい人ばかりで大変恐縮... 続きを読む
こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化... 続きを読む
カテゴリ[Linux Tips]カテゴリ[Hadoop Tips] 環境 Ubuntu 8.10 Hadoop 0.18.0 概要 Hadoopのcontribに、HDFSをfuseを使ってマウントするツールがありますので、これを使う方法です。 準備 必要なツールのインストール sudo aptitude install default-jdk ant su... 続きを読む
Hadoop Wiki に MountableHDFS というのがあり、HDFS をマウントできるようなことが書いてあるので試してみたので、それをメモしておく。いくつか実装があるようだけど、今回試したのは fuse-dfs というもの。こちらのサイトも参考にさせていただいた。gcc, gcc... 続きを読む
1. Information Following are some useful links for users and developers interested in Hive: Getting Started Guide Information for Users Information for Developers Roadmap/call to Add More Features HiveQL Syntax Presentations About Hive A List... 続きを読む
yutakashinoの日々と意見 - ご注意:本blogのyutakashino(柏野雄太)による書き込みは、その属する法人等の見解を何ら代表するものでなく、個人のテンポラリな意見の表明に過ぎません、ってなことは当然ですよね。これは西村さんからTwitterで教えてもらったこと... 続きを読む
様々なデータやログを収集するアプリケーションの運用において、そのデータ量はときに数十テラバイトから数百テラバイトにも及び、分析やバッチ処理を実施するには、長いタイムコストがかかります。しかしその一方で、情報はリアルタイムで増加を続けています。... 続きを読む
論よりコードapt-line(/etc/apt/sources.list)にnon-freeを入れる $ sudo apt-get update $ sudo apt-get install sun-java6-bin $ wget -O - http://www.meisei-u.ac.jp/mirror/apache/dist/hadoop/core/hadoop-0.19.1/hadoop-0.19.2.tar.gz | tar xzf - $ ssh... 続きを読む
いよいよHadoop:The Difinitive Guideの日本語版が発売されました。売れ行きも好調なようで、Hadoopは今年ますます日本で広がっていくのだろうと感じています。さてHadoopを使っている人が、みんな口を揃えて言うのが「ロゴ(キャラクター)がダサイ」というこ... 続きを読む
Ruby Freaks Lounge 第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む 2010年2月1日 佐々木達也 Ruby, 分散処理, Hadoop ブロック, Streaming, コマンド, 標準入力 前回のおさらい 第28回ではHadoop Streamingの仕組みについて説明しま... 続きを読む
こんにちは。前回のHadoopの記事では、HadoopやMapReduceについての概要を説明しましたが、 今回は一歩踏み込んで、Hadoopの使いこなし方について書きたいと思います。 今回は、ある程度Hadoopを使ったことのある方、Hadoopのインストールをして、 オフィシャル... 続きを読む
だいぶ乗り遅れた感はあるけどHadoopを試してみた。環境はvm上のubuntu-9.10サンプルは使用せずにmapperとreducerはPythonで書いてみました。まず準備。javaの確認。なんかの時に入れたのでインスコは省く mochi@ubuntu-vm:~$ java -version java version "1.6.... 続きを読む
Ruby Freaks Lounge 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み 2010年1月18日 佐々木達也 Ruby, 分散処理, Hadoop, Amazon EC2/S3 Java, Streaming, Reduce 1 2 はじめに Hadoopとは,Googleの基盤技術であるMapReduceをJavaでオープンソース... 続きを読む
2009年12月23日20:37 Hadoop EC2上での分散処理(Hadoop)をローカルから実行 以前の記事で、Cloudera を使うことで hadoop-ec2 というコマンドが使えるようになって、Hadoop クラスタを起動したり、クラスタの中身を見たりできるということを紹介しました。今日... 続きを読む
8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで... 続きを読む
Apache HadoopはフリーのJavaソフトウェアフレームワークであり、大規模データの分散アプリケーションをサポートする。[1]Hadoopはアプリケーションが数千ノードおよびペタバイトクラスのデータを処理することを可能としている。HadoopはGoogleのMapReduceおよ... 続きを読む
Hadoop分散ファイルシステム:アーキテクチャと設計 オリジナルドキュメント: The Hadoop Distributed File System: Architecture and Design Hadoop 分散ファイルシステム:アーキテクチャと設計 The Hadoop Distributed File System: Architecture and Desig... 続きを読む
今さらだが @kzk_mover くんによるHadoop World NYC 参加記の紹介。Hadoop って考え方は単純なのだけど、ドキュメントがものすごい勢いで陳腐化したり、チューニングしないといけないパラメータがたくさんあったり(デフォルトで適当な値に設定されているのだけ... 続きを読む
アマゾン、「Hadoop」を利用した「Amazon Elastic MapReduce」のベータサービスを開始 Amazonの子会社Amazon Web Services(AWS)は米国時間4月2日、オープンソースのソフトウェアフレームワーク「Hadoop」を利用して大量のデータ解析を行う、新たなクラウドコ... 続きを読む