[B! Hadoop] srkzhrのブックマーク

Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。以下、導入メモです。セットアップ以下のような構成で試してみます。環境はCentOSです。マスター（host001) ━┳ スレーブ（host002） ┣　スレーブ（host003） ┣　スレーブ（host004） ┗　スレーブ（host005）まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。（rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。）続いてマスターノードにHado

srkzhr 2010/09/08

Hadoop

リンク

Hadoop のコモディティはローエンドという意味ではない - 科学と非科学の迷宮

Hadoop に関するよくある勘違いの一つとして、「古いマシンを有効活用できる」というものがあります。その根拠となるのが、公式サイトを含めあちこちで書かれる「コモディティサーバの上で動く」という一文です。 The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. 404 Not Found しかし Hadoop本9章などにも書かれている通り、コモディティサーバとはローエンドサーバという意味ではありません。あくまで「複数のベンダから入手可能なサーバ」という意味であって、決して安いサーバを意味しているわけではないのです。メモリだけあれば古いマシンが蘇る memcached とかとは訳が違います。例えば2010年3月時点でのCl

srkzhr 2010/07/05

Hadoop

リンク

Google、Apache Hadoopに特許の利用を許可 | エンタープライズ | マイコミジャーナル

The Apache Hadoop project GoogleはMapReduceに関する特許をUnited States Patent: 7650331として確保している。これに関して、MapReduceに関する実装を行うと、同特許に違反することなるのではないか、と懸念していたプロジェクトがあった。Apache HadoopおよびApacheでMapReduceに関連するソフトウェアを実装しているプロジェクトだ。 Re: License for Google's patentにおいて、Apacheの弁護士であるLarry Rosen氏から、Googleの弁護士から「we have granted a license for Hadoop, terms of which are specified in the CLA.」という返事を得たという内容が伝えられている。Apache Hado

srkzhr 2010/04/28

リンク

Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

srkzhr 2009/12/17

Hadoop

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

srkzhr 2009/12/11

Hadoop

リンク

優良企業はなぜHadoopに走るのか

ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

srkzhr 2009/11/29

Hadoop

リンク

PFIとぷらっとホーム、Hadoop導入支援製品を来年1月から提供開始

プリファードインフラストラクチャー（PFI）は19日、ぷらっとホームと協業し、オープンソースの分散処理技術「Hadoop」（ハドゥープ）を活用した、分散データ処理システムの導入を支援する製品開発に着手したことを発表した。 Hadoopは、大規模データを分散処理するためのJava製のソフトウェアフレームワーク。Apacheプロジェクトのトップレベルプロジェクトにもなっており、Googleの基盤ソフトウェアのオープンソースクローンとして開発されている。先日もHadoopの国内普及を目指す「Hadoopユーザー会」が設立され、注目が一層高まりつつある技術だ。同社では、大手企業や団体でのHadoop導入が進む一方、高い技術やノウハウを必要とする点が一般企業への普及を妨げていると考えて、システム導入から運用までのコンサルティングと、ソフトウェア・ハードウェアを含むワンストップソリューションとして企

srkzhr 2009/11/20

pfi
hadoop

リンク

Hadoopの最新動向を「Hadoop World:NY 2009」の資料から（前編）

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェアです。開発が始まったのは2005年頃で、当時Yahoo!に所属し現在はClouderaに所属するDoug Cutting氏が中心となって進めてきました。 Hadoopが実現するMapReduce処理とは、簡単にいえば大量のデータを小さく分割して多数のノードに割り当て（Map処理）、各ノードで処理を行ったらそれを集約して結果を出す（Reduce処理）、という分散処理の方法です。数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分散処理する方法として注目を集めています。ニューヨークでHadoop Worldが開催されるそのHadoopのカンファレンス「Hadoop World：NY 2009」が10月2日にニューヨークで

srkzhr 2009/11/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Hadoopに関するsrkzhrのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス