「DataFrameとDatasetの内部をのぞいてみる」という内容の発表を、Hadoop / Spark Coference Japan 2019で行いました http://hadoop.apache.jp/hcj2019-program/
![hscj2019_ishizaki_public](https://cdn-ak-scissors.b.st-hatena.com/image/square/3d97c97142f0e8e1e226a65c94796fea7cc1a97c/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fhscj2019ishizakipublic-190314134434-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
Currently Spark provides integration with external resource-managers such as Apache Hadoop YARN, Mesos etc. Specifically in the context of YARN, the current architecture of Spark-on-YARN can be enhanced to provide significantly better utilization of cluster resources for large scale, batch and/or ETL applications when run alongside other applications (Spark and others) and services in YARN. Propos
Answer (1 of 11): I do not agree with the very good answer by Sandy Ryza. Though the answer is more or less correct, there is one use case where Tez can score significantly over Spark. This is the one which involves extreme scale - for instance, if you want to join a 100Terabyte table to another ...
Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基本はインフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調
分散クラスターでのビッグデータ分析をインメモリーで高速に行うオープンソースソフトウエア(OSS)の「Spark」。その開発の中核を担う企業が米Databricksだ。Sparkを開発した米University of California Berkeley(UCB)の研究組織「AMPLab」からスピンアウトして、2013年に設立されたベンチャー企業である。 同社の事業内容はあまり明らかになっていなかったが、2014年6月に開催したSparkのイベント「Spark Summit 2014」を機に、Sparkを手軽に利用できるようにするためのクラウドサービス「Databricks Cloud」を投入したり(関連記事:高速ビッグデータ分析をクラウドで、Spark開発元のDatabricksがサービス開始)、Hadoopディストリビューションベンダーと相次いで提携したりするなど(関連記事:次世代Ha
Spark at Twitter - Seattle Spark Meetup, April 2014 The document discusses the results of a study on the impact of climate change on coffee production. Researchers found that suitable land for coffee production could decline by up to 50% by 2050 due to rising temperatures and changing rain patterns associated with climate change. Arabica coffee was found to be most at risk, as its growing regions
NECは、ビッグデータ分析を高速化する分散処理フレームワーク「Feliss」を開発した(発表資料)。ビッグデータ分析でよく用いられるHadoopは、Map-Reduce型の単純な分析であれば高速に実行できるが、繰り返し演算を多用する機械学習処理では、ジョブ間でストレージを経由してデータをやり取りするHDFSがボトルネックとなり、演算の効率を上げにくい。 そこでNECのFelissでは、ジョブ間のデータのやり取りをインメモリーで実施するようにした。さらに演算ノード間の通信などにおいて、並列処理の際のメッセージパッシングのAPIとして一般的な「MPI」を同時に使えるようにした。これにより、機械学習のような複雑な演算について、通常のHadoopを用いる場合と比べて10倍ほど高速に実行できるようにした。FelissはHDFSのインタフェースを備えており、最初のデータ読み出しはHDFSから行える。
Python Programming Guide The Spark Python API (PySpark) exposes most of the Spark features available in the Scala version to Python. To learn the basics of Spark, we recommend reading through the Scala programming guide first; it should be easy to follow even if you don’t know Scala. This guide will show how to use the Spark features described there in Python. Key Differences in the Python API The
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く