[B! hadoop] igrepのブックマーク

Azkaban

Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves the ordering through job dependencies and provides an easy to use web user interface to maintain and track your workflows. Features Compatible with any version of Hadoop Easy to use web UI Simple web and http workflow uploads Project workspaces Scheduling of workflows Modular and pluginable Authentic

igrep 2016/05/06

"batch workflow job scheduler created at LinkedIn to run Hadoop jobs. "

リンク

だれがなぜMongoDB辞めたんですか？(Quora訳) - Qiita

Google Trends でも引き続き勢いのある Mongo DB ですが、一方でちらほらネガティブな意見も聞かれます。Quora に記事を見つけたので訳してみました (ちょっと古いですが時々更新されています)。章立てを少し追加していますが、それ以外は直訳です。まとめ Mongo DB は色々な特徴があって使いやすいハイブリッドなDB。でも、特定の機能を重視するなら特化したDBを使いましょう。大量のデータをMap/Reduceしたいなら、Hadoop Key/Value の大量の操作ならスケールする Riak キャッシュとして使いたいなら、Membase, Redis, HBase キューとして使いたいなら、RabbitMQ, ActiveMQ, ZeroMQとか検索用途で使いたいなら Solar & Sphinx とか翻訳 Q.どの企業がなぜMongo DBをやめたんですか？ A.ま

igrep 2015/10/10

“要するに、MongoDB は独自の小さなニッチ領域に位置するのです。多くのユニークなトレードオフをもち、効果的に利用するためにはそれらを理解しなければなりません。”

リンク

IIJ、ビッグデータ蓄積・利用のワンストップサービスを正式提供開始

IIJ、ビッグデータ蓄積・利用のワンストップサービスを正式提供開始：トレジャーデータとテーマは同じ IIJは2015年3月2日、ビッグデータの収集・蓄積・解析のための環境をワンストップサービスとして提供する「IIJ GIOストレージ＆アナリシスサービス」を、正式提供開始した。インターネットイニシアティブ（IIJ）は2015年3月2日、ビッグデータの収集・蓄積・解析のための環境をワンストップサービスとして提供する「IIJ GIOストレージ＆アナリシスサービス」を、同日に正式提供開始したと発表した。トレジャーデータのサービスと同じ方向を目指していると考えられる。 IIJは、「IIJ GIOストレージ＆アナリシスサービス」を、2014年11月以降、試験サービスとして提供してきた。これまではクラウドストレージサービスのみだったが、保存したデータをBIツールなどで活用できる「解析オプション」を追加

igrep 2015/03/03

リンク

Apache Spark™ - Unified Engine for large-scale data analytics

Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.

igrep 2014/07/05

“Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.”

リンク

米クラウデラ、Hadoop用検索ツール「Cloudera Search」を発表

米クラウデラは現地時間2013年6月4日、「Hadoop」に蓄積するデータへの対話型検索ができるソフトウエア「Cloudera Search」を発表した。オープンソースソフトウエア（OSS）の検索エンジン「Solr」をベースに機能を強化した。同日からベータ版を公開している。 Hadoopではデータは「HDFS（Hadoop Distributed File System）」に保存する。HDFSのデータに対するバッチ処理を実行するのが「MapReduce」であり、HDFSのデータに対する低遅延ランダムアクセスを行うためのソフトとして「HBase」がある。クラウデラは、MapReduceやHBase以外の処理手段を増やしており、HDFSのデータへの対話型SQLクエリー処理を行うためのソフトとして2012年秋に「Cloudera Impala」のベータ版を公開している。今回発表したCloude

igrep 2013/06/15

リンク

第1回　halookでHadoop/HBaseを可視化しよう | gihyo.jp

この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、本連載のキーとなるツール「halook」を紹介します。「⁠halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台～数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。データは正しく分散配置されているか処理は分散して実行されているか設定ミスをしていないか問題の報告の難しさ

igrep 2013/04/04

リンク

MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena

Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscala ble.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。いくつかの実用的なケーススタディも提供している。すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー

igrep 2012/02/25

リンク

RHIPE - R and Hadoop Integrated Processing v.0.38

RHIPE(phonetic spelling: hree-pay' 1) is a java package that integrates the R environment with Hadoop, the open source implementation of Google's mapreduce. Using RHIPE it is possible to code map-reduce algorithms in R e.g m <- function(key,val){ words <- strsplit(val," +")[[1]] wc <- table(words) cln <- names(wc) names(wc)<-NULL; names(cln)<-NULL; return(sapply(1:length(wc),function(r) list(key=c

igrep 2011/10/16

RとHadoopを組み合わせてでっかいデータをみんなで処理しようってか。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

hadoopに関するigrepのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス