[B! MapReduce] nsyeeのブックマーク

nsyee id:nsyee

MapReduceに関するnsyeeのブックマーク (52)

並列データベースシステムの概念と原理
https://ntt-developers.github.io/ntt-tech-conference/2022/ 従来は Docker がコンテナエンジンとして幅広く利用されてきましたが、最近は Kubernetes が Docker 対応を打ち切るなど、風向きが変わってきました。本セッションでは、Docker に代わって普及しつつあるコンテナエンジンである containerd について、Docker との違いや移行方法を紹介します。 P2P でのイメージ配布など、最新の機能についても紹介します。
nsyee 2014/03/13
parallel

DB

MapReduce
リンク
Using Coq in Specification and Program Extraction of Hadoop MapReduce Applications
nsyee 2014/02/03
Coq

Hadoop

MapReduce
リンク
グラフ問題とバルク同期並列の常識をGiraphで体得
グラフ問題とバルク同期並列の常識をGiraphで体得：ビッグデータ処理の常識をJavaで身につける（5）（1/3 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載ソーシャル時代の「グラフ問題」の重要性「グラフ問題」とは、どのようなものか、ご存じでしょうか？ご存じでない方でも実は、「グラフ」を活用したシステムを日常的に使っているのです。その1つは「Google」「Yahoo!」といった、Webの検索システムです。Webの検索システムでは、検索結果の表示順の判断基準の1つとして、Webページの重要度を示す「PageRank（ページランク）」と呼ばれる指標を用います。このPageRankは「注目に値する重要なWebページは、たくさんのページ
nsyee 2013/12/15
graph

MapReduce

parallel

BSP
リンク
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR Techno logies CTO の M.C. Srivas による、MapR アーキテクチャ概要。2013年11月12日に開催された MapR CTO Meetup での説明資料です。
nsyee 2013/11/19
Hadoop

MapReduce
リンク
NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入
NECは、ビッグデータ分析を高速化する分散処理フレームワーク「Feliss」を開発した（発表資料）。ビッグデータ分析でよく用いられるHadoopは、Map-Reduce型の単純な分析であれば高速に実行できるが、繰り返し演算を多用する機械学習処理では、ジョブ間でストレージを経由してデータをやり取りするHDFSがボトルネックとなり、演算の効率を上げにくい。そこでNECのFelissでは、ジョブ間のデータのやり取りをインメモリーで実施するようにした。さらに演算ノード間の通信などにおいて、並列処理の際のメッセージパッシングのAPIとして一般的な「MPI」を同時に使えるようにした。これにより、機械学習のような複雑な演算について、通常のHadoopを用いる場合と比べて10倍ほど高速に実行できるようにした。FelissはHDFSのインタフェースを備えており、最初のデータ読み出しはHDFSから行える。
nsyee 2013/11/14
MapReduce

machine-learning

continuation
リンク
Review: Instant Apache Hive Essentials How-to - たごもりすメモ
突然英語でメールがやってきてレビューしてくれないかと頼まれ、面白そうだから引き受けて読んでみた。日本語でしかレビュー記事書かないけど大丈夫？と確認したら大丈夫だといって電子書籍データをもらいました。すごいことやってる会社があるなあ。イギリスの(電子書籍専門の？)出版社みたいだけど。なおフォーマットは pdf, epub, mobi のどれでもダウンロードできる。すごい。日本はなぜこうじゃないの。で、読んだ。76ページの短い本。ざっくり言うと英語だけどすごく簡単な英語で書かれてて、きわめて簡単に読める。manとか普通に英語で読んでる人なら楽勝だと思う。読めば普通に導入からいろんなクエリを発行するところまで行ける。リファレンスには使えない*1けど、それはまあ、wikiを見ればいいんじゃないですかね。各トピックについてはかなり短いが、必ず前提になるテーブルの準備をするためのクエリ*2
nsyee 2013/09/27
hive

MapReduce

book
リンク
Summingbird at CUFP
Twitter's Summingbird library allows developers and data scientists to build massive streaming MapReduce pipelines without worrying about the usual mess…
nsyee 2013/09/24
twitter

Scala

MapReduce
リンク
http://www.gocircuit.org/
nsyee 2013/08/31
Go

MapReduce

distributed
リンク
niw.at — たのしい Scalding 入門
TL; DR: git clone https://github.com/niw/scalding_examples.git ざっとググった感じ、Scalding についてはまだあまり日本語情報なさそうなので、こう広めたりする目的も込めてちょっとまとめておこうと思います。 Scalding とは Scalding とは、Scala に相当入れ込んでる Twitter で使われているライブラリで、Hadoop の MapReduce を Scala で簡単に書けるものです。中身は Cascading をラップしたものになっています。 Scala に相当入れ込んでる Twitter ではしかしながら Pig が頻繁に使われているのですがある方面では Scalding が使われておりまして、Pig と肩を並べられるくらいに使えて、さらに Scala の秘めた力も使えるんだぜ…! と、少なくとも
nsyee 2013/08/28
Scala

Cascading

Hadoop

MapReduce
リンク
ビッグデータと国勢調査――その意外な結びつきの話
さとう・いちろう／国立情報学研究所・情報社会相関研究系教授。1991年慶応義塾大学理工学部電気工学科卒業。1996年同大学大学院理工学研究科計算機科学専攻後期博士課程修了。博士（工学）。1996年お茶の水女子大学理学部情報学科助手、1998年同大助教授、2001年国立情報学研究所助教授を経て、2006年から現職。また、総合研究大学院大学・複合科学研究科情報学専攻教授を兼任。専門はミドルウェアやOSなどのシステムソフトウェア。佐藤一郎のパースペクティブ分散システムの研究を核としつつ、ユビキタス、ID、クラウド、ビッグデータといった進行形のテーマに対しても、国内外で精力的に発言を行っている気鋭のコンピュータ・サイエンス研究者が、社会、経済、テクノロジーの気になる動向について、日々の思索を綴る。バックナンバー一覧世界最古のビッグデータは、19世紀米国の国勢調査アベノミクスの成長戦略の
nsyee 2013/07/04
data-mining

MapReduce

歴史

IBM
リンク
Apache Spark™ - Unified Engine for large-scale data analytics
Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.
nsyee 2013/07/01
Hadoop

Java

Scala

python

MapReduce
リンク
OSS CEP Server 'Norikra' v0.0.1 released! - たごもりすメモ
みんな大好きFluentdはプラグインも自由に書けて好き放題にリアルタイム集計を行うことが可能なわけですが、やりたい処理にあわせて無限にプラグインを書き続けてるとプラグインの数が爆発し何がどんな処理をしているのかもよくわからず混乱の海に呑まれて消えるという未来がみなさんの脳裏にもおそらく想像されていることと思います。で、世の中にはCEPエンジンというものがあってストリーム状に流れてくるイベントデータに対して処理を行う仕組みがあるわけですね。これ使いたい！しかもあれだ、簡単に処理が書けるものがいい！何が言いたいかと言うとWE NEEEED xQL!!!!!!!!!!!!!!! そんなようなことをこちらのエントリを書いたときに思ったわけです。 http://tagomoris.hatena blog.com/entry/2013/02/19/142017 で、RubyKaigiにも通っちゃ
nsyee 2013/05/26
Norikra

Esper

MapReduce
リンク
Twitterのリアルタイム分散処理システム「Storm」入門
鈴木貴典＋木村宗太郎 TwitterのNathan Marz氏が開発している「Storm」。 2011年9月に、オープンソースとして公開されましたが、まだまだ日本で得られる情報は少なく、詳細は不明なところも多いです。そこで、日本初（たぶん）の「Storm」セッションを行います。「Storm」は、CEP（Complex Event Processing＝複合イベント処理）に属するプロダクトであり、分散リアルタイム処理を行うための基本セットを提供しています。今回のセッションでは、その概念や特性などについて解説してみます。
nsyee 2013/05/22
twitter

Storm

MapReduce

Java

clojure
リンク
「fluentd」と「Storm」の比較について - Tous Les Jours 攻防記
まず、両者はかなり性質の異なるプロダクトなので、以下の比較は筋違い。筋違いであることを前提に、ストリームデータ処理プラットフォームとしての両者を比べてみる。基本情報 fluentd http://fluentd.org/ 今をときめくログコレクター/イベントアグリゲーター。Rubyで実装されているが軽量高速。 RPC基盤ではなく、その下のレイヤーに位置するプロダクト。 Storm http://storm-project.net/ 分散RPC基盤。ストリームデータ版MapReduce風フレームワーク。Java+Clojureで実装されている。概要については、下記のスライドがとてもわかりやすかった。 Twitterのリアルタイム分散処理システム「Storm」入門ストリームデータ処理で何をするのかについてストリームデータ処理のニーズについて、自分が理解している範囲での簡単な説明。典
nsyee 2013/05/22
fluentd

Storm

Log

MapReduce
リンク
Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は！？私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります：誰もがその命令を理解できると
nsyee 2013/04/23
MapReduce

R

hive

Cascading

Pig
リンク
GitHub - twitter/scalding: A Scala API for Cascading
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
nsyee 2013/04/23
Cascading

Hadoop

MapReduce

Scala
リンク
Cascading
Please note that all new project news and releases have moved to https://cascading.wensel.net The Cascading Ecosystem is a collection of applications, languages, and APIs for developing data-intensive applications. At the ecosystem core is Cascading, a Java API for defining complex data flows and integrating those flows with back-end systems, and a query planner for mapping and executing logical f
nsyee 2013/04/23
Cascading

Hadoop

MapReduce

Java
リンク
Asakusa Framework
Asakusa Frameworkとは、Hadoop上で大規模な基幹バッチ処理を行うためのフレームワークです。大容量データを多数のサーバーに分散し、並列処理させることで高速なデータ処理を実現しています。基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装しているため、Asakusa Frameworkを使えば、複雑な業務処理もHadoopを意識せずに開発可能です。 2019年12月18日 Asakusa Framework 0.10.4 リリース Asakusa Framework 0.10.4 リリース本リリースの概要は以下のとおりです。 Asaksua Gradle Pluginが追加するMavenリポジトリのプロトコル変更 Asaksua Gradle Pluginがプロジェクトに対して追加するMavenリポジトリのURLプロトコルを http: から https:
nsyee 2012/06/11
MapReduce

Hadoop

distributed

Asakusa
リンク
業務系処理の分散処理の実行基盤について(Asakusa0.2.6) - 急がば回れ、選ぶなら近道
Asakusa supports for the multi-clusterというお話で、多分解説がいるので書いておく。公式に書くものではない、という意見も強いので、ここで書く。先日のSIGMOD日本支部のMtgでも発表した内容ともかぶりますが。具体的にはここで http://asakusafw.s3.amazon aws.com/documents/0.2/release/ja/html/yaess/multi-dispatch.html いろいろ細かい内容は以下を参照で。「AsakusaFW0.2.6の見どころ」 http://blog.goo.ne.jp/hishidama/e/2ba82d5ad404000de52d1a4029eb7346 まず、前提として現在のAsakusaは業務処理のバッチ処理、特に非同期処理を対象している。その上で実際に使われているし、SIも行われている。
nsyee 2012/06/11
MapReduce

Hadoop

distributed

Asakusa
リンク
MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
nsyee 2012/06/06
MapReduce

algorithm
リンク
1 2 3 次のページ