kimutanskのブックマーク / 2015年11月6日

kimutansk id:kimutansk

2015年11月6日のブックマーク (8件)

Spark and Spark Streaming unit testing
Big data engineer leading @allegro real-time, highly scala ble and fault-tolerant data ingestion platform. It processes a few billion events every day with e2e latency below one minute. When you develop a distributed system, it’s crucial to make it easy to test. Execute tests in a controlled environment, ideally from your IDE. Long develop-test-develop cycle for complex systems could kill your prod
kimutansk 2015/11/06
RDDも変換関数を検証する、はUnitTestで可能と。Streamingは時間経過を手動で制御可能なManualClockというクラスをSparkが提供していて、それでテスト可能と。こうやりますか。

spark

Testing
リンク
Testing Spark Streaming Applications — Tapjoy Engineering
kimutansk 2015/11/06
SparkStreaming、やはりアプリケーションを丸々UnitTestするのは無理で、DStreamを変換する関数が正しいことを確認するが限度ですか。おそらくCoreも似たようにやる他ないですかね。

spark

Testing
リンク
Real-time Recommendations using Spark Comcast Labs
JOIN THE GLOBAL DATA COMMUNITY FOR 500+ SESSIONS AND EXPLORE HOW DATA INTELLIGENCE ENABLES EVERY ORGANIZATION TO HARNESS THE POWER OF GENAI ON THEIR OWN DATA.
kimutansk 2015/11/06
Sparkのパフォーマンステスト、SparkJobServerに媒体アップしてGatlingでガシガシ叩いて確認する方式と。いや、確かに小さい単位ならこれでいいんですが・・

spark

test

performance
リンク
Apache SparkをScalaTestで動かしたい - CLOVER🍀
このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。調べた感じ、やれないこともなさそうな雰囲気…。 Testing Spark Streaming Applications http://eng.tapjoy.com/blog-list/testing-spark-streaming-applications https://spark-summit.org/2014/wp-content/uploads/2014/06/Testing-Spark-Best-Practices-Anupama-Shetty-Neil-Marshall.pdf ちょっと、やってみましょう！追記）ドキュメントをよーく見ると、ここに
kimutansk 2015/11/06
SparkContextに対して記述したコードの結果を確認することはできると。あとはどういう風に関数切れば実際のSparkApplicationをユニットテストできるかですね。

spark

test

scala
リンク
Hadoop Pig の使いどころ - Tech-Sketch
「PigとHive何が違うの？」「Difference between Pig and Hive? Why have both?(PigとHive何が違うの？)」という質問を、先日、StackOverFlowで見かけました。恐らくHadoopを触ると一度は疑問に思う事ではではないでしょうか。 PigとHiveは、共にSQLライクな記法でMapReduceを書けるDSLですが、利用者数においてはHiveに軍配が上がっているようにみえます。一方で、「Pigをもっと早く試せば良かった」というお話を伺うこともあり、有用（かもしれない）ツールであれば、正しく理解しておいた方がよさそうです。というわけで、ここではPigの活用を探ります。 Pigの性能 Pigが今一つ利用されていないのは、SQLとの親和性に加え、性能面で、「Java MapReduce＞Hive＞Pig」という傾向があるからで
kimutansk 2015/11/06
Pigについて今更初めてきちんと見てみましたが、作りやすく柔軟性は高いものの、性能的に課題が大きい、という感じでしょうか。昔の時点では。今ではどうですかね。

pig

hadoop
リンク
Apache SparkのWebUI、いろいろ比較してみた
Sparkを実行できるWebUIをいくつか比較してみました。対象としたのは下記の３つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)
kimutansk 2015/11/06
Zeppelinは利用可能言語多彩、iPython Notebookはpythonライブラリ利用可、spark-notebookはグラフ機能充実、といった感じですか。比較表は非常にありがたい。

spark

IPython
リンク
spark-notebook使ってみた
notebook形式のWebUIでsparkを実行するspark-notebookを使ってみました。 https://github.com/andypetrella/spark-notebook spark-notebookは、scala-notebookをforkして作ったそうなんですが、元々のscala-notebookはiPython Notebookにフィーチャーされて作ったものだということで、 iPython Notebookユーザには非常に馴染みのあるインターフェイスになっています。インストールインストール方法はいくつか用意されています。バイナリファイル dockerイメージ debianパッケージソースコード私はデバッグできるようにソースコードを使いました。ソースコードを使う場合はsbtでビルドと起動を行います。 # GitHubからcloneします $ git
kimutansk 2015/11/06
Sparkのおためしとしては申し分ないですが、後はこれをクラスタに接続してジョブを突っ込む仕組みを確認する所ですかね。

spark

IPython
リンク
Apache Spark＋IPython notebook（＆Mesos）インストール〜動作確認
前回、Cloudera Managerを使ってHDFSクラスタを構築しました。今回はこのHDFS上でApache Sparkを動かします。 Apache Sparkを扱うOSSのGUIをいろいろ探してみたのですが、現状ではIPython + notebook最強伝説です。というわけでまずはMesosのマスター／スレーブを構築していきたいのですが、その前に、Mesosとは何か？です。 0. Mesosとは ■ Mesos 分散アプリケーションもしくはフレームワークに対して効率的なリソース分離、共有を提供するクラスタ管理アプリケーションです。つまり、分散アプリケーションで実行されるタスクを管理し、効率的にリソース分配を行うものです。要はYARNと同じ役割ですが、YARNとの違いは下記に詳しい記述がありました。 [Mesos]Hadoop YARNとApache Mesosの違いって何？
kimutansk 2015/11/06
IPython notebookはSparkと組み合わせると強力ですが、これってクラスタのファイルも解析できるか／Mesos必須か・・ですか。それはおいおい。

spark
リンク
- 2015年11月8日
- 2015年11月6日
- 2015年11月5日