こんにちは。まーやです。先日de:codeのセッションで、Koalasというものがあるよ!と教えていただきました。とても気になるライブラリだったのでとりあえず触ってみることにしました。・・・のブログです。 Koalas とは Databricks 社が開発中のPython分散処理用DataFrameのライブラリです。 https://koalas.readthedocs.io/en/latest/ もともとPySpark DataFrame というSpark用のDataFrameが存在していますが、このPySpark DataFrameはPandasとは少々書き方が異なります。 似ているところも多いけれどもともとの思想がSQL思考(Spark DataFrame)と表計算思考(Pandas)と異なるため、記法に統一感はありません。 そのため、例えば、 「分析チームがpandasを使った分析
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Optimizer 上新卓也氏:これでLogical Planにキャッシュを使うプランが含まれてきたので、その次の処理としてはOptimizerですね。 これは今までプランの書き換えなどはやってこなかったんですが、ここからプランをガシガシと
Scala/Sparkだいすきですが、今度働くことになる会社はPython文化。 Scalaだって、Jupyter Notebook使えるし、matplotlibみたいに、ビジュアライゼーションできるよ!ということをアピールしたい、というのがモチベーションです。 ScalaをJupyterで使うために Jupyter NotebookはもともとPythonの開発用にiPython Notebookとして開発されていましたが、 最近はカーネルさえインストールすれば、BashでもRubyでも、なんでも動くようになっていますね。 ということで、今回はScala/Sparkが動くカーネルを入れて動かしてみます。 Scalaを動かすためのカーネルとしては、Apache Toreeを使います。 Toree以外にもJupyter Notebook用Scalaカーネルとしては以下もありますが、開発が活発そ
Databricks から Delta Lake というモジュールがリリースされました。これは Databricks で提供している Delta という Transactional なストレージの一部を OSS として公開したようです。このモジュールは現在 Spark に対応しています。 この Delta のトランザクションの仕組みが気になったので、GitHub に公開されているコードを clone し、データを append / overwrite するテストコードを動かしてトランザクションがどのような仕組みで実現されているか調べてみました。 Setup 公開されたコードは GitHub にあります。Scala が動く環境であればテストコードを動かすことはできます。Windows の場合は winutils が必要です。 package は org.apache.spark.sql.de
3⁄14 に開催された Hadoop / Spark Conference 2019 Japan に行ってきました。参加したセッションの内容と感想を書いてみました。 Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって 「Hadoop もう終わりつつあるのでは?」と思われがちだけど、HDFS とか YARN といった技術は分散並列処理の基盤として主流だよ、という話。実際「Hadoop」という文字を Web の記事等で目にすることはかなり少なくなりましたが、分析基盤の構築の事例はまだ結構見るので、それらを支える技術として進化しているようです。 Apache Hadoopの現在と未来 参加申請の時に取ったアンケート結果の発表から。オンプレでの運用が多いのと、Kudu を使っているところがあったのが面白いな、と。あとは新機能の Hadoop Subma
JVM Profiler: An Open Source Tool for Tracing Distributed JVM Applications at Scale Computing frameworks like Apache Spark have been widely adopted to build large-scale data applications. For Uber, data is at the heart of strategic decision-making and product development. To help us better leverage this data, we manage massive deployments of Spark across our global engineering offices. While Spark
Serverless Data Analytics with Flint Youngbin Kim and Jimmy Lin David R. Cheriton School of Computer Science University of Waterloo Waterloo, Ontario, Canada {youngbin.kim,jimmylin}@uwaterloo.ca Abstract—Serverless architectures organized around loosely- coupled function invocations represent an emerging design for many applications. Recent work mostly focuses on user-facing products and event-dri
Building a user-friendly app to analyze big data in real time (that is, keeping response times below 60 seconds) is a challenge. In the big data world, you’re either doing batch analytics where nobody really cares about query time (most businesses); or you’re doing streaming (Uber, Facebook and kin) where query time is critical, but data is only big on aggregate — each user only sees or uses a tin
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く