Unified governance for all data, analytics and AI assets
The other week I posted a three-part series (part 1, part 2 and part 3) on going beyond MapReduce for Hadoop-based ETL, where I looked at a typical Apache Pig dataflow-style ETL process and showed how Apache Tez and Apache Spark can potentially make these processes run faster and make better use of in-memory processing. I picked Pig as a data processing environment as the multi-step data transform
オープンソースフレームワークであるApache Spark、およびそのエコシステム(周辺ソフトウエア)であるMLlibを活用することで、高速かつ柔軟な機械学習処理を実現できる。本稿では、Apache Sparkを用いた機械学習の特徴や歴史を紹介する。 Apache Sparkとは? 本稿では、「ポストHadoop」の最右翼と言われているApache Sparkのエコシステムである、MLlibライブラリを用いた機械学習システムについて説明する。 オープンソースソフトウエアであるApache Sparkは、2014年2月にApacheのトップレベルプロジェクトに昇格したほか、ビッグデータ分野のリーディングカンパニーである米クラウデラがサポートを行うなど、安定的な発展が見込まれている。 Apache SparkはHadoopと同じく、計算処理を分散環境で並列実行するための基盤である。RDD(Re
This document discusses approximate query processing using sampling to enable interactive queries over large datasets. It describes BlinkDB, a framework that creates and maintains samples from underlying data to return fast, approximate query answers with error bars. BlinkDB verifies the correctness of the error bars it returns by periodically replacing samples and using diagnostics to check the a
1. 2013 © Trivadis BASEL BERN BRUGG LAUSANNE ZUERICH DUESSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MUNICH STUTTGART VIENNA 2013 © Trivadis Echtzeitverarbeitung von Twitter Streams mit Oracle Event Processing (OEP) 12c Guido Schmutz DOAG Konferenz 2014 19.11.2014 – 15:00 Raum Kiev 19.11.2014 Processing Twitter Stream with Oracle Event Processing (OEP) 1 2. 2013 © Trivadis Guido Schmutz • Worki
RDDの不変とは RDDの不変(イミュータブル)とは、“依存RDD(系譜)”と“処理内容”が変わらないという意味であり、「“処理した結果のデータ(値)”が常に変わらない」という意味ではない。[2014-09-08] 「一度出来上がったデータ(値)は、正常な手段では変更されない」という意味では、データが不変と言えなくもないが。 Sparkでは、障害が起きてRDDの一部が消失すると、入力元の(依存している)RDDを使って再処理してデータを作り直す。 基本的には、依存RDDのデータ(値)が障害前と同じであれば、再処理した結果のデータも障害前と同じになる。 しかし、障害前と同じにならないケースもある。 破損していない入力データが見つかるまで再帰的に依存RDDを辿っていくことになるが、一番先頭まで辿り着いてしまうと、HDFS等の外部システムからデータを再度読み込むことになる。 もしそのデータの内容が
In this chapter, we will use MLlib to make personalized movie recommendations tailored for you. We will work with 10 million ratings from 72,000 users on 10,000 movies, collected by MovieLens. This dataset is pre-loaded in your USB drive under data/movielens/large. For quick testing of your code, you may want to use a smaller dataset under data/movielens/medium, which contains 1 million ratings fr
第1回 IntroductionとGetting Started 第2回 Data Exploration Using Spark 第3回 Explore In-Memory Data Store Tachyon これ順番が動画順なので、厳密にはAMP CampのWebページのメニュー順番とは異なっていますね。。。第4回目はMLlibで一応自分の中では本丸です。 Movie Recommendation with MLlibのメモ MovieLensのデータを使ったMLlibのサンプル Data set データセットはGetting Startedより取得できる Collaborative filtering 協調フィルタリングの説明 色々あるけど、好みにまつわる隠れた要因を見つけ出す手法の一つであるALS(Alternating Least Squares)をMLlibは実装しているので
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く