[B! MapReduce][hadoop] karahiyoのブックマーク

karahiyo id:karahiyo

MapReduceとhadoopに関するkarahiyoのブックマーク (7)

第8回　データ処理における並列アルゴリズム［3］ | gihyo.jp
はじめに前回は、結合処理の並列化における基本戦略について説明し、ソートマージ結合における具体的な並列アルゴリズムを説明しました。今回は、ImpalaやPrestoに加えて、Apache SparkやHadoop MapReduceのMap Joinにおいても用いられているハッシュ結合における具体的な並列アルゴリズムを説明します。ハッシュ結合における並列アルゴリズムハッシュ結合は、2つのデータにおいて同一の属性値をもつレコードを見つける方法として、レコードのハッシュ値を用いるものです[1]⁠。すなわち、当該方法においては、一方のデータのすべてのレコードの結合キーに対してハッシュ関数を用いてハッシュ値を計算し、当該ハッシュ値からなるハッシュ表を事前に構築しておき、他方のデータのレコードの結合キーに対して同一のハッシュ関数から得られたハッシュ値を用いてハッシュ表を参照することにより、同一の
karahiyo 2015/08/05
Hadoop

MapReduce
リンク
DMM inside
なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは
karahiyo 2015/02/24
Hadoop

MapReduce

amazon

cloud

bigquery

tagomoris

dmm

データ分析

技術
リンク
Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは？ MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性
karahiyo 2014/09/06
storm

Hadoop

Strom

リアルタイム

java

twitter

tutorial

scala

mapreduce

Summingbird
リンク
niw.at — たのしい Scalding 入門
TL; DR: git clone https://github.com/niw/scalding_examples.git ざっとググった感じ、Scalding についてはまだあまり日本語情報なさそうなので、こう広めたりする目的も込めてちょっとまとめておこうと思います。 Scalding とは Scalding とは、Scala に相当入れ込んでる Twitter で使われているライブラリで、Hadoop の MapReduce を Scala で簡単に書けるものです。中身は Cascading をラップしたものになっています。 Scala に相当入れ込んでる Twitter ではしかしながら Pig が頻繁に使われているのですがある方面では Scalding が使われておりまして、Pig と肩を並べられるくらいに使えて、さらに Scala の秘めた力も使えるんだぜ…! と、少なくとも
karahiyo 2014/09/06
Scala

MapReduce

git

twitter

Hadoop

scalding

Cascading
リンク
検索エンジンLuceneの歴史とこれから - ワザノバ | wazanova
http://www.youtube.com/watch?v=5444z-L2V2A 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Luceneのオリジナルの開発者であるDoug Cutting（ClouderaのChief Architectと Apache Software FoundationのDirectorを兼務）が、Luceneの歴史と今後の展開を紹介しています。検索サイトExciteに勤務していた1997年に開発開始。当時新しくでてきたJavaを使ってみたかった & ネットバブルが弾けるのが不安で何かかたちに残るものをつくっておきたかった。2000年にオープンソースとして提供。Solrは2006年、Solr Cloudが2012年。昨年にはHadoopプラットフォームの検索エンジンに
karahiyo 2014/02/28
cloudera

MapReduce

Hadoop

リアルタイム
リンク
Hadoop Summit 2012 | Optimizing MapReduce Job Performance
Optimizing MapReduce job performance is often seen as something of a black art. In order to maximize performance, developers need to understand the inner workings of the MapReduce execution framework and how they are affected by various configuration parameters and MR design patterns. The talk will illustrate the underlying mechanics of job and task execution, including the map side sort/spill, th
karahiyo 2014/01/21
hadoop

MapReduce

performance

tuning

チューニング
リンク
MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development
どうも，実は今年から開発チームにjoinしていた中川です．可愛い犬の写真がなかったので，可愛いマスコットの画像を貼っておきます．最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました．これはつまり，それだけ大量のデータをなんとか処理したいという要望があるからだと思います．しかし当たり前ですが，MapReduceは銀の弾丸ではありません．ということで，最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について，社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います． Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです．長いのでBSPと書きます．さて，グラフから最短経路を求める時，MapReduceは使えるでしょうか？このような論文が出るくらいですから出来ないことはあ
karahiyo 2012/12/13
分散処理

bsp

spark

MapReduce

Hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx