[B! Hadoop] tnalのブックマーク

tnal id:tnal

Hadoopに関するtnalのブックマーク (3)

次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム
次世代Hadoopの有力なビッグデータ分析基盤として期待を集めているフレームワークがある。Apache Software Foundation（ASF）のオープンソースソフト（OSS）プロジェクトである「Spark」だ。インメモリー処理が特徴で、Hadoopにおける処理方式の一つである「MapReduce」を用いた場合と比べて最大で100倍以上、分析処理を高速化できる。 Sparkは当初、研究用途として米University of California Berkeley（UCB）の研究組織「AMPLab」で誕生したものだが、2014年5月にはASFから「バージョン1.0」が公開された。研究用途のフェーズを脱し、企業が商用で使えるソフトを目指すことを宣言した形だ（関連記事：Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開）。 Sparkに注目し、その動向に詳
tnal 2014/06/24
Spark

Hadoop

machinelearning
リンク
Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開
米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日（米国時間）に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる（関連記事：NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入）。 Sparkは、もともと米Universi
tnal 2014/06/24
HDFS

Hadoop

Spark

Scala

machinelearning
リンク
RでHDFS上のデータを読み書きするパッケージを公開しました - yokkunsの日記
RでHadoopを使うパッケージは、RHadoopとかRHIPEとかありますが、単純にHDFS上のデータを読み書き出来るだけのシンプルなものが欲しかったのでパッケージを作って公開してみました。 http://crantastic.org/packages/rHadoopClient JavaとかPigで一次集計したデータをRで読み込む時に使うイメージです。準備 install.packages("rHadoopClient") library(rHadoopClient) HDFS上のデータを読み込む ./tmp/iris にアップしたirisのデータを読み込む data.hdfs <- read.hdfs("tmp/iris") names(data.hdfs) <- names(iris) head(data.hdfs) ## Sepal.Length Sepal.Width Pe
tnal 2013/04/06
R

Hadoop

HDFS

Hive
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx