[B! プログラミング][mapreduce] kana321のブックマーク

kana321 id:kana321

プログラミングとmapreduceに関するkana321のブックマーク (5)

Amazon.co.jp: 並行コンピューティング技法 ―実践マルチコア/マルチスレッドプログラミング: Clay Breshears (著), 千住治郎 (翻訳): 本
kana321 2014/12/31
本

読みたい本

book

programming

Books

multithread

本

プログラミング

amazon

mapreduce
リンク
第30回　RubyとHadoopで分散処理　Hadoop Streamingで外部データを読み込む | gihyo.jp
前回のおさらい第28回ではHadoop Streamingの仕組みについて説明しました。今回は、実際にHadoop Streamingを利用してデータ解析したときの具体的な話や、利用してみて困った（ハマった）Hadoop Streaming特有の問題とその解決法について紹介していきます。実際に利用してみて困った（ハマった）ことさて、第28回でも紹介しましたが今回Hadoopを利用したのはopen('http://tabemiru.com/2009'); return false;">たべみるのデータ解析のためです。たべみるのデータ解析では、食材名や地域名といった特定の値ごとにデータをまとめる処理が多く、またその処理速度が遅いのが問題だったのですが、このような処理はHadoop上（Ruby）でも比較的簡単に実装することができました。それで最初は「これはスムーズにHadoop上に処理を
kana321 2014/12/24
RubyとHadoopで分散処理　Hadoop Streamingで外部データを読み込む

プログラミング

Hadoop

ruby

EC2

mapreduce

分散処理

あとで読む

S3

TIPS

LDR
リンク
クックパッドとHadoop - クックパッド開発者ブログ
はじめまして。今年の5月に入社した勝間@さがすチームです。入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています！さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、クックパッドの検索まわりについて、いろいろな開発を行っています。一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、分散処理環境の必要性が高まってきました。そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。
kana321 2014/11/19
programming

ruby

db

開発

プログラミング

mapreduce

presentation

cookpad

Hadoop

あとで読む
リンク
グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開
グーグルは、同社内でパラレルデータ処理に利用している言語「Sawzall」を、「Szl」というプロジェクト名のオープンソースとして公開しました。書籍「Googleを支える技術」によると、Sawzallは分散処理のためにデザインされたDSL（Domain Specific Language）で、特定の用途に限っては非常に容易に処理を記述できるようになっているインタープリタ型のプログラミング言語。GFS（Google File System）とMapReduceを基盤とし、MapReduceをより簡単に実行できるものと説明されています。なぜSawzallはオープンソースとして公開されたのか？グーグルは2003年8月に、論文「Interpreting the Data: Parallel Analysis with Sawzall」を発表し、これによってSawzallという言語がグーグルに
kana321 2013/08/12
Google

Programming

Sawzall

言語

オープンソース

language

あとで読む

分散処理

プログラミング

MapReduce
リンク
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ
kana321 2012/11/12
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

Facebook

あとでみる

hadoop

Publickey

facebook

プログラミング

mapreduce

hive

オープンソース

cloud
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx