[B! mapreduce] yassのブックマーク

yass id:yass

mapreduceに関するyassのブックマーク (57)

http://tothestars.io/blog/2016/11/2/serverless-mapreduce
yass 2016/11/05
aws lambda

MapReduce
リンク
What is the difference in idea, design and code, between Apache Spark and Apache Hadoop?
Answer (1 of 17): When I was getting started with using Apache Spark, I had the same question. From everything I heard, it seemed as if Spark does the same things as Mapreduce but better and faster. But, as it turns out that’s not the case. A few resources (linked below) have helped me with that ...
yass 2015/11/22
hadoop

spark

comparison

mapreduce

merge sort
リンク
大規模データのマイニング - 共立出版
ウェブやインターネットコマースの隆盛によって、とてつもなく巨大なデータセットが出現し、そして、データマイニングによってそれらから情報が抽出されている。巨大なデータに対するマイニングにおいては、従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。本書はデータマイニングにおいて重要な問題の解決に使われてきており、さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを、データベースやウェブ技術の分野で著名な原著者が解説する。まず、データマイニングの本質や、データマイニングがどのように扱われているかを概観する。次に、今後非常に大量のデータの解析を行う際に、クラウドコンピューティングとともに重要視されると考えられ、この後の章の議論に必須のものとなるマップレデュースを解説する。その後、類似するアイテム
yass 2014/07/01
book

LSH

minhash

MapReduce

PageRank

machinelearning

recommend
リンク
GitHub - mfisk/filemap: File-Based Map-Reduce. Zero-install: easily use any collection of computers as a map-reduce cluster for command-line analytics.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yass 2014/05/30
MapReduce

hadoop

file
リンク
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014/03/14
MapR Techno logies CTO の M.C. Srivas による、Hadoop最新情報。YARN, MapR OmniによるHadoopスケジューリング、Drill, Impala, Shark, VerticaといったSQL on Hadoopソリューションについて解説します。2014年3月14日に開催された MapR CTO Meetup での説明資料です。Read less
yass 2014/04/04
MapR

hadoop

MapReduce

vertica

drill

spark

shark
リンク
HazelcastがMapReduce APIをサポート
Hazelcast Inc.のシニアソフトウェアエンジニアであるChristoph Engelbert氏とのインタビューを紹介する。 InfoQ: Hazelcastという会社とそのビジネスモデルについて，簡単に説明をお願いします。 Christoph: Hazelcastはオープンソースのインメモリ・データグリッドソリューションで，Apache License 2のもとに公開されています。Map, List, Set, Queue, Lock, ExecutorServiceなど一般的なJava APIの多くを分散形式で実装した上に，パーティション化されたクラスタ環境用の機能を追加しています。分散型のクエリ(Predicate)や，特定ノード上で実行可能なRunnable/Callableクラスなどがその例です。同時にHazelcastは，オープンソースプロジェクトの開発，配布，サポー
yass 2014/03/10
" CasMapRは全体的に，私の好きなInfinispanのAPIにインスパイアされてます / Hadoopとの最大の違いは，インメモリであること，リアルタイム処理であることの２つです "

hazelcast

infinispan

mapreduce

grid

hadoop
リンク
並列データベースシステムの概念と原理
2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907Read less
yass 2014/02/02
MapReduce

database

join

sort

merge sort

partitioning
リンク
Rubyによるお手軽分散処理
Apache BigtopによるHadoopエコシステムのパッケージング（Open Source Conference 2021 Online/Osaka...NTT DATA Techno logy & Innovation
yass 2013/10/01
hadoop

MapReduce

pmux

distributed

glusterfs

messagepack

Messagepack-RPC

ssh

ruby
リンク
夏サミ2013 Hadoopを使わない独自の分散処理環境の構築とその運用
Developers Summit 2013 Summer （2013年8月1日渋谷にて開催）のA3セッション「Hadoopを使わない独自の分散処理環境の構築とその運用」の登壇資料です。【セッション概要】 Intel x86サーバの性能向上に伴い、ネットワークの広帯域化が進みつつあるなか、いよいよ普及期に入ろうとしている10Gigabit EthernetのWebサービスにおける利用法とその性能と具体的な利用例について紹介します。さらに近い未来を予見させる40Gigabit Ethernetの今とこれからについても運用性・性能・注意点などを見ていきます。Read less
yass 2013/10/01
pmux

Hadoop

mapreduce

glusterfs
リンク
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
yass 2013/10/01
fluentd

GlusterFS

mapreduce

pmux
リンク
Map Reduce 〜入門編：仕組みの理解とアルゴリズムデザイン〜
Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）NTT DATA OSS Professional Services
yass 2013/10/01
MapReduce
リンク
Google の大規模データ処理: Days on the Moon
Google の鵜飼文敏さんによる講演会「大規模データ処理を可能にする Google の技術」に行ってきました。内容的には筑波大学で開かれたものと同じではないかと思います (「新ビジネスモデル」がそのままだったことなどから)。以下、上記記事に載っていないことを中心にメモから抜書きを。此頃 Google にはやる物現在 Google では Google の使命 (Google's mission is to organize the world's information and make it universally accessible and useful...) の早打ちが流行中。鵜飼さんは 50 秒程度、一番速い人は 30 秒程度。 Google の扱う情報 Google のいう「情報」はインターネット上のものだけに限らない (例: Google ブック検索)。データセンター
yass 2013/09/29
" データの分析は単純なもの (合計、最大値、最小値、上位 k 個、フィルタリングなど) がほとんどで、DBMS の高度な機能は必要ない。これらの分析処理は可換的、結合的なため処理順は任意 / Bigtable / 毎秒 100 万 Read/Write "

google

MapReduce

SSTable

BigTable
リンク
GPUへのMapReduceの適用に関する調査 - nishio-dens's diary
概要近年、GPUの性能は飛躍的に向上しており、グラフィック専用の処理装置としてではなく、数値計算等の汎用向けの処理に利用する、GPGPUに関する研究が盛んに行われている。GPUは内部に多くのコアを備えており、NVIDIA社のGeForce GTX 580では、512個ものコアを保持している。これらのコアすべてを効率よく利用することで、GPUの持っている高いパフォーマンスを引き出すことが出来るが、GPUの高い並列性を利用するためにはGPU特有の処理を実装する必要があり、GPUプログラミングになじみの無い利用者にとっては処理の記述が困難である。そこで、GPUを大量のコアを持ったプロセッサだと考え、これらに対してMapReduceを適用することを検討する。親しみやすいMapReduceインターフェースにあてはめて処理を記述するだけで、GPUの高い並列性を生かしたプログラムが実装可能となる。加
yass 2013/09/29
" GPUプログラミングになじみの無い利用者にとっては処理の記述が困難である。そこで、GPUを大量のコアを持ったプロセッサだと考え、これらに対してMapReduceを適用することを検討する。"

gpgpu

MapReduce

gpu
リンク
%w(map reduce).first - A Tale About Rabbits, Latency, and Slim Crontabs
yass 2013/09/28
mapreduce

rabbitmq
リンク
時系列ビッグデータを手軽に可視化するHadoopアプリケーション、Dunkhead
Dunkheadとは Dunkheadはタイムスタンプ付きのテキストデータ（アクセスログなど）を手軽に可視化するためのソフトウェアです。Hadoop上で動作するMapReduceアプリケーションであるため、データのサイズが大きい、いわゆるビッグデータの場合にも使用することができます。 Dunkheadは、入力データとなるログをもとに、サーバ監視ツールなどで見られるような、横軸が時間、縦軸が目的の値となる画像を出力します。下記の例はNASAのスペースシャトル、ディスカバリー号のミッションの際に記録された、NASAのウェブサーバのアクセスログをDunkheadで可視化したものです(こちらについて、詳しくは『HadoopとDunkheadでNASAのウェブサーバのアクセスログを解析・可視化する』を参照ください)。各種サーバのアクセスログなどは、特に活用することなく、いつのまにか大量に溜まってし
yass 2013/09/22
" タイムスタンプ付きのテキストデータを手軽に可視化 / Hadoop上で動作するMapReduceアプリケーション / ログをもとに、サーバ監視ツールなどで見られるような、横軸が時間、縦軸が目的の値となる画像を出力 "

hadoop

Dunkhead

RRD

H2

mapreduce
リンク
Advanced public safety platform
Discover how the Atlanta Police Department leveraged Peregrine to reduce their violent crime by 19%Watch now
yass 2013/09/21
" Peregrine is a map reduce framework designed for running iterative jobs across partitions of data. Peregrine is designed to be FAST for executing map reduce jobs by supporting a number of optimizations and features not present in other map reduce frameworks. "

mapreduce

netty

sstable
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
yass 2013/09/01
"Resilient Distributed Datasetsは以下の性質を持つ / イミュータブルで分割されたオブジェクトのコレクション / 並列処理(map, filter, groupBy, join)をストレージ上のデータに適用した結果生成 / 再利用するためにメモリ上にキャッシュ"

spark

hadoop

mapreduce
リンク
生物データベース論（並列分散計算フレームワーク）
2014年7月5日に行われたOSC名古屋、及び2014年7月12日にカーネル/VM探検隊@北陸 1でのスライドです。楽しさ求めて、もうちょっとはじけちゃえ(ぴょんぴょんと)
yass 2013/08/25
mapreduce

parallel
リンク
https://www.davepacheco.net/blog/post/2013-06-25-inside-manta-distributing-the-unix-shell/
yass 2013/06/26
joynet

MapReduce

storage
リンク
Google News Personalization: Scalable Online Collaborative Filtering
Google News Personalization: Scala ble Online Collaborative Filtering Abhinandan Das, Mayur Datar, Ashutosh Garg WWW 2007, May 8-12, 2007 Presented by: Jerry Fu 4/24/2008 1 1 Friday, May 9, 2008 Outline Introduction and probl em Related work on recommendation algorithms Overview of combined recommendation algorithm Overview of MapReduce Algorithm implementation details Generation of recommendations
yass 2013/05/12
google

google news

pLSI

minhash

clustering

MapReduce
リンク
1 2 3 次のページ