タグ

Hadoopに関するsrkzhrのブックマーク (8)

  • Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

    大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。 以下、導入メモです。 セットアップ 以下のような構成で試してみます。環境はCentOSです。 マスター(host001) ━┳ スレーブ(host002) ┣ スレーブ(host003) ┣ スレーブ(host004) ┗ スレーブ(host005) まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。(rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。) 続いてマスターノードにHado

    Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary
  • Hadoop のコモディティはローエンドという意味ではない - 科学と非科学の迷宮

    Hadoop に関するよくある勘違いの一つとして、「古いマシンを有効活用できる」というものがあります。 その根拠となるのが、公式サイトを含めあちこちで書かれる「コモディティサーバの上で動く」という一文です。 The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. 404 Not Found しかし Hadoop9章などにも書かれている通り、コモディティサーバとはローエンドサーバという意味ではありません。 あくまで「複数のベンダから入手可能なサーバ」という意味であって、決して安いサーバを意味しているわけではないのです。 メモリだけあれば古いマシンが蘇る memcached とかとは訳が違います。 例えば2010年3月時点でのCl

    Hadoop のコモディティはローエンドという意味ではない - 科学と非科学の迷宮
  • Google、Apache Hadoopに特許の利用を許可 | エンタープライズ | マイコミジャーナル

    The Apache Hadoop project GoogleMapReduceに関する特許をUnited States Patent: 7650331として確保している。これに関して、MapReduceに関する実装を行うと、同特許に違反することなるのではないか、と懸念していたプロジェクトがあった。Apache HadoopおよびApacheでMapReduceに関連するソフトウェアを実装しているプロジェクトだ。 Re: License for Google's patentにおいて、Apacheの弁護士であるLarry Rosen氏から、Googleの弁護士から「we have granted a license for Hadoop, terms of which are specified in the CLA.」という返事を得たという内容が伝えられている。Apache Hado

  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
  • PFIとぷらっとホーム、Hadoop導入支援製品を来年1月から提供開始

    プリファードインフラストラクチャー(PFI)は19日、ぷらっとホームと協業し、オープンソースの分散処理技術「Hadoop」(ハドゥープ)を活用した、分散データ処理システムの導入を支援する製品開発に着手したことを発表した。 Hadoopは、大規模データを分散処理するためのJava製のソフトウェアフレームワーク。Apacheプロジェクトのトップレベルプロジェクトにもなっており、Googleの基盤ソフトウェアのオープンソースクローンとして開発されている。先日もHadoopの国内普及を目指す「Hadoopユーザー会」が設立され、注目が一層高まりつつある技術だ。 同社では、大手企業や団体でのHadoop導入が進む一方、高い技術やノウハウを必要とする点が一般企業への普及を妨げていると考えて、システム導入から運用までのコンサルティングと、ソフトウェア・ハードウェアを含むワンストップソリューションとして企

    PFIとぷらっとホーム、Hadoop導入支援製品を来年1月から提供開始
  • Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)

    Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェアです。開発が始まったのは2005年頃で、当時Yahoo!に所属し現在はClouderaに所属するDoug Cutting氏が中心となって進めてきました。 Hadoopが実現するMapReduce処理とは、簡単にいえば大量のデータを小さく分割して多数のノードに割り当て(Map処理)、各ノードで処理を行ったらそれを集約して結果を出す(Reduce処理)、という分散処理の方法です。数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分散処理する方法として注目を集めています。 ニューヨークでHadoop Worldが開催される そのHadoopのカンファレンス「Hadoop World:NY 2009」が10月2日にニューヨークで

    Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)
  • 1