[B! hadoop][amazon] uchiuchiyamaのブックマーク

uchiuchiyama id:uchiuchiyama

hadoopとamazonに関するuchiuchiyamaのブックマーク (11)

Rの並列化の現状について | wrong, rogue and log
RとHadoopを併用する並列化ソリューションがようやく実用レベルのとば口の一歩手前まできたカンジがある。昨日発表があった、Revolution Analytics(旧REvolution Comupting)のRとHadoopインテグレーションは、並列化処理速度を目指したというよりは、Hadoopの分散ストレージ(HDFS)をうまく使ってテラバイトサイズのデータを解析できるようにしたソリューションだそうだ。 Revolution Analytics Brings Big Data Analysis to R with R http://bit.ly/cD1Pf9 ちなみにRevolution Analyticsとしては、以前の多コア対応を謳っていた並列化ソリューションであるParallelRもサポートをつづけるけれど、主力をこちらのほうにシフトするみたいだね。いままでも、Amazon
uchiuchiyama 2010/08/04
r

amazon

hadoop
リンク
Amazon EC2 + Hadoop Streaming でデータ処理を行う
Hadoop on Flickr - Photo Sharing! お題は “Always on the side of the egg” をワードカウントしてよく使われている単語を見つけるというもの。ちなみにこの”Always on the side of the egg”というのは日本語訳すると「常に卵の側に」で、村上春樹氏がエルサレム賞の受賞スピーチで読み上げたものです。今回は【英語全文】村上春樹さん「エルサレム賞」授賞式講演 - 47トピックスの英文を使いましたが、オリジナルの発表原稿も公開されていました。 Always on the side of the egg - Haaretz - Israel News Hadoop Streaming というのは通常はHadoop上の処理をする場合はJavaで記述する必要があるのですが、好きな言語でコードを記述しそれを標準入出力を介し
uchiuchiyama 2010/05/23
amazon

hadoop

aws
リンク
Amazon Elastic MapReduce Ruby Client - Develop with pleasure!
Amazon Elastic MapReduceWebサービスを呼び出すRubyのクライアントライブラリがAWSで公開されてる。 Amazon Elastic MapReduce Ruby Client : Developer Tools : Amazon Web Services まず、セットアップ。 ↑のサイトからelastic-mapreduce-ruby.zipをDLし、適当な場所に解凍する。解凍したディレクトリにパスを通す。パスを通したディレクトリの直下にcredentials.jsonというファイルを作成し、以下のようにAWSにアクセスするための認証情報をJSON形式で定義する。 { "access_id": "AWSへのAccessキーIDを定義", "private_key": "AWSへのSecretAccessキーIDを定義", "keypair": "EC2のマス
uchiuchiyama 2010/05/23
amazon

hadoop

ec2

aws
リンク
HugeDomains.com
Captcha security check learnaws.com is for sale Please prove you're not a robot View Price Processing
uchiuchiyama 2010/05/23
ruby

hadoop

amazon
リンク
Amazon Elastic MapReduceでHadoop Streamingする時にライブラリをrequireする方法 - Stellaqua - ＴＯＭの技術日記
ちょっと元データの件数が大量にある処理をしたいという要件があって、普通に逐次処理していくと恐ろしく時間が掛かるので、「こんな時こそHadoop!」って事で、久々にHadoopをいじくっていました。ただ、自宅サーバでやろうとすると、いくら分散処理できるとは言っても結局処理するのは物理的には1台な訳で、メモリを使い切ってスワップしまくってウンともスンとも言わなくなってしまうという、とっても悲しい状況になってしまいました。「そんな時はAmazon先生にお願い!」って事で、Amazon Elastic MapReduceを試していたんですが、ちょっとハマってしまったところがあったので、備忘録がてら記事にしようかと思います。 Mapper/Reducer以外のファイルが使えない! 以前にAmazon Elastic MapReduceを試した時は、MapperとReducerが1ファイルだけの簡
uchiuchiyama 2010/05/23
amazon

aws

ec2

hadoop
リンク
Cloudera を使って CentOS に Hadoop on EC2 な環境を整える第二回 - (ﾟ∀ﾟ)o彡 sasata299's blog
2009年11月16日00:54 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える第二回前回の続きです。前回はローカルに Hadoop をインストールするところまで行ったので、今回は EC2 上で Hadoop を使える環境まで構築してみます。 python スクリプトの hadoop-ec2 を手に入れるまずは指示に従い、cloudera-for-hadoop-on-ec2-py-0.3.0-beta.tar.gz をダウンロードし、適当な場所に解凍後、パスを通します。この中に hadoop-ec2 という python スクリプトがあり、これを利用して EC2 上にインスタンスを起動したりします。このように利用します。 # 現在起動しているインスタンスの一覧を見る hadoop-ec2 list # [cluster] の m
uchiuchiyama 2010/04/29
amazon

hadoop

ec2
リンク
僕が Amazon Elastic MapReduce を使わない３つの理由 - (ﾟ∀ﾟ)o彡 sasata299's blog
2010年04月20日22:46 Hadoop 僕が Amazon Elastic MapReduce を使わない３つの理由【追記】この内容は古いです。最近はEMRを利用してます。つ 961万人の食卓を支えるデータ解析僕は日頃から Hadoop さんを使って（あと EC2 と S3 も使ってます！）色々ごにょごにょすることが多いんですが、EC2 上で Ruby でスクリプト書いて使ってるよーと言うとよく言われるのが、「何で Amazon Elastic MapReduce 使わないの？」という質問です。今までこれに個別に答えてたりしたんですが、めんどくさいので一度ここにまとめておきます。以前、Elastic MapReduce を実際に試してみたんですが、そのとき感じたメリット・デメリットはこんな感じです。今はそうじゃないよ！とかあったらごめんなさい＞＜ ★ メリット・Hado
uchiuchiyama 2010/04/29
コメント欄も

amazon

ec2

hadoop
リンク
Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続
uchiuchiyama 2009/12/17
development

hadoop

ec2

amazon

webservice

presentation
リンク
Hadoopのインストールとサンプルプログラムの実行
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました（図1 参照）。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS（Hadoop Distributed File System）、Hadoop MapReduce F
uchiuchiyama 2009/07/24
apache

amazon

google

hadoop
リンク
MapReduce - naoyaのはてなダイアリー
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
uchiuchiyama 2009/07/24
amazon

google

hadoop
リンク
Amazon Elastic MapReduceでperlを使った処理をしてみる
http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/ を読むとAmazon Paymentに誘導されるけどアメリカ国内向けなので使えないっぽい。 http://kzk9.net/blog/2009/04/reviewing_amazon_elastic_map_reduce.html を読んだら https://console.aws.amazon.com/ から触れるとのことで、既存の決済に合算できた。 #!/usr/bin/perl # mapper.pl use strict; use warnings; while (<>) { my ($uri) = ($_ =~ /"(?:GET|POST|HEAD) ([\S]+?) HTTP/); print "$uri\n"; } #!
uchiuchiyama 2009/07/18
perl

ec2

amazon

hadoop
リンク
1