タグ

hadoopに関するuchiuchiyamaのブックマーク (63)

  • ARAKI notes - hadoop conference 2009の後半

    [Elastic MapReduceの話] 大倉努さん ->後半になった. Elastic MapReduceは入出力はS3になる.http://s3sync.net/wiki のRubyのシンクツールが便利.データは複数のfileにわけないと,EC2はジョブをわけてくれない.AWS management consoleで実行,確認ができる.->一般人JSONで指定する elastic-mapreduceがおすすめ.-> プログラマならこっちだろうelastic mapreduceにはamazonのほうでHDFSを用意してくれるので,中間出力はS3ではなく,こっちを使うべき.blogeye.jpでは800GBあったが80台 70時間でokだった.小規模なJobだとMasterはamazonが用意してくれるから安い.わるいところもいろいろ.独自のディスクイメージが使いたかったらEC2で自分で

  • ARAKI notes - hadoop conference 2009 の前半メモ

    [Clounderaの人のビジネストーク] VERTICAがSQLベンダとして最初にきた. Clouderaはコミュから何を学んだか.->むずかしい,(説得,インストール,などなど) Cloudera Distribution for Hadoop (CDH). CDH1,CDH2と進化してきた.CDH2はHbase,Zookeeper, Hadoop0.20.1+152パッチ 75%の新ユーザが利用している.9月の時点ではダウンロード数はapacheの10倍以上. OpenPDC(ストリームセンサDB)でもつかってる. Cloudera Desktop = アプリ開発フレームワーク, 管理コンソール. グラフ機能の実装はもうすぐ.コマンドラインtoolのおきかえではない. Window managerはオソ. desktop-api-subscribe@cloudera.com [楽天

  • テキストファイル入力のメモ - 鯨飲馬食コード

    私はRubyをテキストファイルを一行ずつ入力し、処理して出力するという用途でよく使う。その時のメモ。 よく使うのはIOクラスでファイルを読み込む方法。 #!/usr/bin/ruby #IO.rb in_file = ARGV.shift IO.foreach(in_file) do |line| if line =~ /^http\:\/\/d\.hatena\.ne\.jp\/(.+?)\// id = $1 puts id end end この例では"http://d.hatena.ne.jp/id/"からidを抜き出して出力する。urlset.txtにURLが一行ずつ書かれているとしてこう使う $ ruby IO.rb urlset.txt 次は標準入力を使う方法。 #!/usr/bin/ruby #stdin.rb $stdin.each_line do |line| if li

    テキストファイル入力のメモ - 鯨飲馬食コード
  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
  • RubyでHadoopをラップ、分散処理ツールキットが登場 - @IT

    2009/05/12 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Amazon EC2 + Hadoop Streaming で データ処理を行う

    Hadoop on Flickr - Photo Sharing! お題は “Always on the side of the egg” をワードカウントしてよく使われている単語を見つけるというもの。ちなみにこの”Always on the side of the egg”というのは日語訳すると「常に卵の側に」で、村上春樹氏がエルサレム賞の受賞スピーチで読み上げたものです。 今回は【英語全文】村上春樹さん「エルサレム賞」授賞式講演 - 47トピックスの英文を使いましたが、オリジナルの発表原稿も公開されていました。 Always on the side of the egg - Haaretz - Israel News Hadoop Streaming というのは通常はHadoop上の処理をする場合はJavaで記述する必要があるのですが、好きな言語でコードを記述しそれを標準入出力を介し

    Amazon EC2 + Hadoop Streaming で データ処理を行う
  • Amazon Elastic MapReduce Ruby Client - Develop with pleasure!

    Amazon Elastic MapReduceWebサービスを呼び出すRubyのクライアントライブラリがAWSで公開されてる。 Amazon Elastic MapReduce Ruby Client : Developer Tools : Amazon Web Services まず、セットアップ。 ↑のサイトからelastic-mapreduce-ruby.zipをDLし、適当な場所に解凍する。 解凍したディレクトリにパスを通す。 パスを通したディレクトリの直下にcredentials.jsonというファイルを作成し、以下のようにAWSにアクセスするための認証情報をJSON形式で定義する。 { "access_id": "AWSへのAccessキーIDを定義", "private_key": "AWSへのSecretAccessキーIDを定義", "keypair": "EC2のマス

    Amazon Elastic MapReduce Ruby Client - Develop with pleasure!
  • HugeDomains.com

    Captcha security check learnaws.com is for sale Please prove you're not a robot View Price Processing

    HugeDomains.com
  • RubyでHadoop Streaming[2/2] - 森薫の日記

    Hadoop, Ruby | 00:43 | d:id:kaorumori:20090202:1233509351の続きです。Rubyのコードが長くなってしまいました。文字数をカウントするMapReducemap.rb #!/usr/bin/env ruby ARGF.each do |line| line.chomp! words = line.split(/:/) words.each do |word| unless word.empty? printf("%s\t1\n", word) end end end reduce.rb #!/usr/bin/env ruby h = Hash.new ARGF.each do |line| line.chomp! array = line.split(/\t/) key = array[0] value = array[1] if h.k

  • Amazon Elastic MapReduceでHadoop Streamingする時にライブラリをrequireする方法 - Stellaqua - TOMの技術日記

    ちょっと元データの件数が大量にある処理をしたいという要件があって、普通に逐次処理していくと恐ろしく時間が掛かるので、「こんな時こそHadoop!」って事で、久々にHadoopをいじくっていました。 ただ、自宅サーバでやろうとすると、いくら分散処理できるとは言っても結局処理するのは物理的には1台な訳で、メモリを使い切ってスワップしまくってウンともスンとも言わなくなってしまうという、とっても悲しい状況になってしまいました。 「そんな時はAmazon先生にお願い!」って事で、Amazon Elastic MapReduceを試していたんですが、ちょっとハマってしまったところがあったので、備忘録がてら記事にしようかと思います。 Mapper/Reducer以外のファイルが使えない! 以前にAmazon Elastic MapReduceを試した時は、MapperとReducerが1ファイルだけの簡

    Amazon Elastic MapReduceでHadoop Streamingする時にライブラリをrequireする方法 - Stellaqua - TOMの技術日記
  • Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第二回 - (゚∀゚)o彡 sasata299's blog

    2009年11月16日00:54 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第二回 前回の続きです。前回はローカルに Hadoop をインストールするところまで行ったので、今回は EC2 上で Hadoop を使える環境まで構築してみます。 python スクリプトの hadoop-ec2 を手に入れる まずは指示に従い、cloudera-for-hadoop-on-ec2-py-0.3.0-beta.tar.gz をダウンロードし、適当な場所に解凍後、パスを通します。この中に hadoop-ec2 という python スクリプトがあり、これを利用して EC2 上にインスタンスを起動したりします。このように利用します。 # 現在起動しているインスタンスの一覧を見る hadoop-ec2 list # [cluster] の m

  • Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 - (゚∀゚)o彡 sasata299's blog

    2009年11月15日00:03 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 Hadoop のことをもっと知るために、Cloudera を使って Hadoop 環境を整えてみようと思います。Cloudera のインストールガイド を参考に進めてみます。OS は CentOS 5.2 です。 Cloudera's Distribution for Hadoop (CDH) まず、yum のリポジトリに cloudera-stable.repos と cloudera-testing.repos を追加します。これで yum から Hadoop のインストールが出来るようになります。便利ですね〜。 ちなみに、cloudera-stable の方は Hadoop-0.18 が、cloudera-testing の方は Hadoo

  • 僕が Amazon Elastic MapReduce を使わない3つの理由 - (゚∀゚)o彡 sasata299's blog

    2010年04月20日22:46 Hadoop 僕が Amazon Elastic MapReduce を使わない3つの理由 【追記】 この内容は古いです。最近はEMRを利用してます。つ 961万人の卓を支えるデータ解析 僕は日頃から Hadoop さんを使って(あと EC2 と S3 も使ってます!)色々ごにょごにょすることが多いんですが、EC2 上で Ruby でスクリプト書いて使ってるよーと言うとよく言われるのが、 「何で Amazon Elastic MapReduce 使わないの?」 という質問です。今までこれに個別に答えてたりしたんですが、めんどくさいので一度ここにまとめておきます。以前、Elastic MapReduce を実際に試してみたんですが、そのとき感じたメリット・デメリットはこんな感じです。今はそうじゃないよ!とかあったらごめんなさい>< ★ メリット ・Hado

    uchiuchiyama
    uchiuchiyama 2010/04/29
    コメント欄も
  • 資料を公開いたしました!(クックパッドの裏側見せます in 京都) - クックパッド開発者ブログ

    こんにちは、クックパッドのすみです。去る4/16,17に京都で「クックパッドの裏側見せますvol.2&vol.3」を開催いたしました。 当日お越しくださった皆さま、Ustreamをご覧くださった皆さま、誠にありがとうございました! お話させて頂いたエンジニアのうち2名の資料を公開いたしますので、是非ご覧くださいませ。 ・勝間亮/アグレッシブなクラウドの使い方 [slideshare id=3827098&doc=engineer-event-100417-kyoto-100423034302-phpapp02] ・濱崎健吾/クックパッドに入って十数日働いた雑感 [slideshare id=3849703&doc=100413urapad-100425122155-phpapp01]

    資料を公開いたしました!(クックパッドの裏側見せます in 京都) - クックパッド開発者ブログ
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • blog.katsuma.tv

    久々のBlog更新、というわけでリハビリがてらJavaScriptで軽く遊んでみたいと思います。 いま、巷で流行ってるMapReduceのオープンソース実装Hadoopは「Hadoop Streaming」という標準入出力でデータのやりとりができる仕組みを使って、 Hadoopの実装言語であるJavaにとらわれず、RubyPerlなど他の言語でもMap+Reduceの処理ができることが1つのウリになっています。 で、僕たちwebエンジニアはみんなJavaScript大好きなので、「JavaScriptでもMap Reduceやりたい!」という流れになるのは必然です。 そこで、試行錯誤でいろいろ試してみると割とさっくり出来たのでそのメモを残しておきたいと思います。 環境の整備 Mac OSX上のVMWare FusionにCentOSの仮想マシンを2台立ち上げて、環境セットアップしました。

  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー