タグ

Hadoopに関するJ138のブックマーク (84)

  • 高まるHadoopの導入機運、日本のHadooperが集結

    高まるHadoopの導入機運、日のHadooperが集結:Hadoop Conference 2009 Tokyo Report Hadoop Conference 2009 Tokyoに集まった日のHadooperたち。楽天が、はてなが、NTTデータが、そのほか多くの先進的な企業がこぞってHadoopを使うのはなぜなのか。Hadoopに対する各社の研究開発がつまびらかに語られた。 ニューヨークから東京へ 10月2日に米国・ニューヨークで「Hadoop World」が開催された時点で、11月には東京でも、という話が浮かび上がっていた。そのわずか2週間後、10月16日の金曜日にHadoopユーザー会からの開催通知メールが配信されると、週明け20日の朝には200名の定員が埋まってしまうという盛り上がりをみせ、日のHadooperたちが胎動していることを感じさせた。 Hadoop Conf

    高まるHadoopの導入機運、日本のHadooperが集結
    J138
    J138 2010/01/15
  • バッチ処理時間の短縮を実現するHadoop技術とは?(その2)|大量データのバッチ処理時間短縮はHadoop(ハドゥープ)技術で。

    Hadoop(ハドゥープ)とは、Googleの分散ファイルシステムを応用して オープンソース化したプラットフォームです。 分散ファイルシステムとは、複数のマシンのディスクを組み合わせて 1つのファイルシステムとして見せる技術です。 これは1つのディスクで保存しきれないような大量のデータを並列化することで 非常に高速に効率良く処理することができるのです。 Hadoopプラットフォームは安全です。 分散ファイルシステムにより、同じファイルを異なるマシンに重複して持たせることで、 一台のマシンが故障した場合でもファイルが失われません。 つまり、耐障害性の高い・安全性の高いとプラットフォームであると言えるのです。 Hadoopプラットフォーム、始まりはGoogleから・・・ グーグルが独自に開発したMapReduceは、 同社の検索エンジンを支える中核技術であるため詳細は未公開ですが、

  • blog.katsuma.tv - hadoop Archive

    HiveでのSQLことHQLの小ネタ。HQLでは基的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その1つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。(無視されているような感じ)Hiveでは代わりに「SORT BY [column]」を利用することになります。 ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。 では、どうするか?と言うと明示的にreducerの数を1に指定してからSORT B

  • HBase - HADOOP2 - Apache Software Foundation

    HBase: Bigtable-like structured storage for Hadoop HDFS HBase has an awesome community resource in our online book. It's maintained and looked after with diligence. In contrast, the below Wiki content has not been updated since 2012. For that reason, the Wiki has been deprecated (see HBASE-14481). Please update your links. You can find historical pages (which have been updated to give the new link

  • Hypertable のリード開発者が Hadoop と分散データベースを語る

    最近、データベース関連の話題が盛り上がっている。IBM はこのほど(source)、Amazon EC2 上で動作するクラウドエディションをサポートする EnterpriseDB (source)に出資したし、Amazon は去年の終わりごろに独自のクラウドデータベースをリリースした。Google の BigTable(source) も、オープンソースではないにもかかわらず、コミュニティによる学習や研究の対象となっている。このような流れの中(source)、ふたつのオープンソースプロジェクト HBase(source) と Hypertable (source)が、 BigTable にインスパイアされたスケーラブルなデータベースを実装するために Map/Reduce プラットフォームである Hadoop (source)を活用している。InfoQ は Hypertable 産みの親で、

    Hypertable のリード開発者が Hadoop と分散データベースを語る
  • http://lunarium.info/arc/index.php/Hadoop/Hbase_Cluster

  • クックパッドとHadoop - クックパッド開発者ブログ

    はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

    クックパッドとHadoop - クックパッド開発者ブログ
    J138
    J138 2009/12/28
  • Hadoop HDFSコマンド実行メモ(0.20.1)

    # 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the

    J138
    J138 2009/12/28
  • ノードの追加・削除 - kikumotoのメモ帳

    ノードの追加・削除といった Hadoop の運用面について少し調べてみたのでメモ。 ノードの追加 ノードを追加するにはだいたい以下のような手順となる。 Hadoop のソフトウェアをインストールする。 このとき、hadoop-env.sh や conf/*.xml も設定しておく。 NameNode、JobTracker ノードからパスワードなしで ssh ログインできるようにしておく。 NameNode, JobTracker の conf/slaves に追加したノードを追記する。 最後に、追加したノードで以下のコマンドを実行する。 $ cd $HADOOP_HOME $ ./bin/hadoop-daemon.sh start datanode $ ./bin/hadoop-daemon.sh start tasktracker これで、Hadoop クラスタにノードが追加され、HD

    ノードの追加・削除 - kikumotoのメモ帳
    J138
    J138 2009/12/28
  • 2009年12月: おちエンのブログ

    色々な理由から Hadoop を install することにしました。 と言っても、サーバは1台しかないので、 すべて1台でまかなう仮想分散ですが。。。 「Hadoop の Quick Start」がまさに quick start できるドキュメントになっていますので、これから install する人はそちらをお読みください。 ただ、このドキュメントでは、Hadoop 専用のユーザを作れという話は出てこないので、まずは Hadoop を動かすユーザ、たとえば hadoop などを useradd するなり、vipw するなりして追加しておくことをお薦めします。 Quick Start の通り、設定したのですが、いざ、 $ hadoop fs -put conf input とやってみると、 09/12/21 21:38:42 WARN hdfs.DFSClient: DataStreame

    J138
    J138 2009/12/25
  • 1台構成のHadoopを30分で試してみる(CentOS + Cloudera)

    (参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・CentOS5かCentOS6のLinux環境1台(ここではCentOS5.6とCentOS6.0を使いました。CentOSの他バージョンや、Fedora、Redhat等でも大丈夫だと思います) ・インターネット接続 ・Sun社Javaパッケージ(パッケージファイルをインターネットから取得) ・Cloudera社のCDH3のHadoopパッケージ(yumでインターネットからインストール) 作業手順 0. 準備 0-1. Sun社Javaパッケージの取得 http://java.sun.com/javase/downloads/にて、 Java SE 6の[Download]ボタンを押して出る「Java SE Downloads」のページから必要なもの

    1台構成のHadoopを30分で試してみる(CentOS + Cloudera)
    J138
    J138 2009/12/24
  • blog.katsuma.tv

    久々のBlog更新、というわけでリハビリがてらJavaScriptで軽く遊んでみたいと思います。 いま、巷で流行ってるMapReduceのオープンソース実装Hadoopは「Hadoop Streaming」という標準入出力でデータのやりとりができる仕組みを使って、 Hadoopの実装言語であるJavaにとらわれず、RubyPerlなど他の言語でもMap+Reduceの処理ができることが1つのウリになっています。 で、僕たちwebエンジニアはみんなJavaScript大好きなので、「JavaScriptでもMap Reduceやりたい!」という流れになるのは必然です。 そこで、試行錯誤でいろいろ試してみると割とさっくり出来たのでそのメモを残しておきたいと思います。 環境の整備 Mac OSX上のVMWare FusionにCentOSの仮想マシンを2台立ち上げて、環境セットアップしました。

    J138
    J138 2009/12/24
  • Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第二回 - (゚∀゚)o彡 sasata299's blog

    2009年11月16日00:54 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第二回 前回の続きです。前回はローカルに Hadoop をインストールするところまで行ったので、今回は EC2 上で Hadoop を使える環境まで構築してみます。 python スクリプトの hadoop-ec2 を手に入れる まずは指示に従い、cloudera-for-hadoop-on-ec2-py-0.3.0-beta.tar.gz をダウンロードし、適当な場所に解凍後、パスを通します。この中に hadoop-ec2 という python スクリプトがあり、これを利用して EC2 上にインスタンスを起動したりします。このように利用します。 # 現在起動しているインスタンスの一覧を見る hadoop-ec2 list # [cluster] の m

    J138
    J138 2009/12/22
  • Tsuchiya Yoshihiro: Hadoop Conference Japan 2009

    Saturday, November 14, 2009 Hadoop Conference Japan 2009 Hadoopといえば今年、USENIX FASTでサンフランシスコに行ったときにYahoo!の人のチュートリアルを受けたのですが、その後、自分でHadoopをいじったことはありませんでした。 Hadoop Conference Japan 2009に行ってきました。 HadoopはWeb企業ばかりだけではなく、金融や通信などの企業も使い始めているようです。 インストール。HadoopはClouderaのものを使うのが良いらしいです。 http://www.cloudera.com/ 現在の安定版はCDH1。 testing版はCDH2で、今年の冬に安定版になる。 現在ではyumやapt-getでインストールできるようになっているそうです。パッケージ名はhadoop。 用語など

    J138
    J138 2009/12/22
  • Hadoop + Luceneで分散インデクシング - moratorium

    Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

  • 検索インデックスを作ろう 後編 (Hadoopで転置インデックス) - Gemmaの日記

    Hadoopで転置インデックスを作る。 Hadoopのインストールについては以下を参照。 Hadoopのインストールとサンプルプログラムの実行 Running Hadoop On Ubuntu Linux (Single-Node Cluster) 転置インデックスとは、の巻末にある索引のことだ。 例えば、るるぶは巻末に転置インデックスがついていて、目的地のページを素早く探せる。 "金閣寺 ・・・ P.15" "銀閣寺 ・・・ P.15,P.16,P.57" "高台寺 ・・・ P.11" 前編の単語リストは、文書ID => 単語、単語、単語 だったが、 後編の転置インデックスは、単語 => 文書ID、文書ID、文書ID と、 単語リストをひっくり返す(転置)。 MapReduceの手順 1.文書のURIを並べたテキストファイル http://localhost/rfc/rfc1.txt

    検索インデックスを作ろう 後編 (Hadoopで転置インデックス) - Gemmaの日記
    J138
    J138 2009/06/12
  • Yahoo! Distribution of Hadoop Security

    Hadoop Related Downloads Oozie – Yahoo!'s workflow engine for Hadoop Download the source code of Oozie, Yahoo!'s workflow engine for Hadoop: Apache Hadoop Sandbox Download the sandbox version of Apache Hadoop with security and Pig. The sandbox version contains a VMWare(TM) based virtual machine with a preinstalled Hadoop cluster, enabling easy setup and experimentation. Notice Yahoo! does not offe

  • 米ヤフー、Hadoopの自社開発版をリリース

    Yahooは米国時間6月10日、Hadoopの自社開発版をオープンソースとしてリリースすると発表した。なお、Hadoopは同社の業務の多くを支えているグリッドコンピューティングフレームワークである。 Yahooは、Apache Software Foundationが主導しているHadoop開発に大きく貢献してきている。Hadoopは基的に、Googleが同社のインデックスサーバを稼働させるために使用しているソフトウェアのオープンソース版であり、Yahooも自社においてGoogleと同じ目的でHadoopを使用している。 Yahoo Grid Technologiesの品質およびリリース担当エンジニアリングマネージャーであるNigel Daley氏の10日付けのブログ投稿によると、HadoopはYahooの社内において膨大な数のサーバ上で実行されているという。他の企業や組織にとって、Ya

    米ヤフー、Hadoopの自社開発版をリリース
  • blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術

    はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。 これまでの連載 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日語のブログをクロール、リアルタイムに分析して、流行語と思わ

    blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術
  • Hadoopは耐障害性に課題があるが実用性十分 - @IT

    2008/08/25 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注

    J138
    J138 2009/06/09