Unified governance for all data, analytics and AI assets
はじめに こんにちは。 この記事はApache Spark Advent Calendar 2015の19日目の記事です。 Sparkを使うにあたって困る点 Sparkを使っている皆さんなら実感しつつあると思いますが、Sparkには困った点もあります。 とりあえずサンプルを動かすだけ、であればそれほど苦労することは無いのですが、実際に大規模データを用いて使用し出すと、下記のような問題が頻発します。 適切なチューニングが施されていないとスピードが出ない 一部のコンポーネントはそもそも動かない(特にMLlib) 問題が発生した時、どこで発生したかがぱっとはわかりにくい そのため、ある程度内部構造か、チューニングの勘所をおさえておかないと苦労することになります。 優れてはいるんですが、その分ピーキーなフレームワーク、というのがMapReduceと比べた私の印象です。 そんなわけで、Sparkの内
はじめに こんにちは。 前回に引き続き、SparkInternalsを訳していきます。 前回と同じく以後は下記の判例となります。 SparkInternals訳文 コメント cache(またはpersist)はHadoop MapReduceには存在しない、Spark固有の重要な要素となる。この機能によって、SparkはDataの再利用が可能になり、インタラクティブな機械学習アルゴリズム、インタラクティブなデータ解析といったユースケースにおいて大きく高速化に貢献している。Hadoop MapReduceのジョブと異なり、SparkのLogicalPlan/PhysicalPlanは巨大化し、処理の連鎖も大きく、RDDに対する計算時間も長くなる。もし、不幸にもエラーや例外がTask実行中に発生した場合、処理の連鎖の全体を再実行する必要が出た場合、計算ロスのコストはかなり大きいものとなる。従っ
Module Context¶ Important classes of Spark SQL and DataFrames: pyspark.sql.SparkSession Main entry point for DataFrame and SQL functionality. pyspark.sql.DataFrame A distributed collection of data grouped into named columns. pyspark.sql.Column A column expression in a DataFrame. pyspark.sql.Row A row of data in a DataFrame. pyspark.sql.GroupedData Aggregation methods, returned by DataFrame.groupBy
はじめに AWS Glueは、Pythonに加えてScalaプログラミング言語をサポートし、AWS Glue ETLスクリプトの作成時にPythonとScalaを選択できるようになりました。新しくサポートされたScalaでETL Jobを作成・実行して、ScalaとPythonコードの違いやScalaのユースケースについて解説します。 AWS Glue Now Supports Scala in Addition to Python ScalaでETL Jobを作成して実行する ETL Jobは、ソース、ターゲット、カラムのマッピング、ETL言語などを指定すると対応したETLコードが自動生成されます。その生成されたコードに対して、さらにテンプレートを追加したり、コードを編集します。では早速、ScalaでETL Jobを作成してみます。 Job Properties 全般的なETL Jobに
概要 Sparkでのプログラミングは、Scalaのコレクションの関数の記述と似ている。 ScalaのコレクションではRangeやList等のインスタンスを作ってそれに対してmapやfilter関数を呼び出すが、 SparkではまずSpark用のオブジェクトを作り、そこからコレクションっぽいオブジェクトやファイルを読み込むイテレーターを生成する。 当初のSparkではRDDというクラスを使ってプログラミングしていたが、 Spark1.3からDataFrameというクラスが導入され、 Spark1.6からDatasetというクラスが導入された。Spark2.0ではDatasetが正式となっている。 RDDよりもDataFrameの方が(最適化が効いて)高速だが型情報が消えてしまう為、Datasetを使うのが良い。(DataFrameはDatasetに統合されている) 参考: yubessyさん
AWS re:Invent 2016: Deep Dive: Amazon EMR Best Practices & Design Patterns (BDM401) Amazon EMR is one of the largest Hadoop operators in the world. In this session, we introduce you to Amazon EMR design patterns such as using Amazon S3 instead of HDFS, taking advantage of both long and short-lived clusters, and other Amazon EMR architectural best practices. We talk about how to scale your cluster
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog saegusa2017-04-16Yoshihiro was a network engineer at LINE, responsible for all levels of LINE's infrastructure. Since being named Infra Platform Department manager, he is finding ways to apply LINE's technology and business goals to the platform. こんにちは。LINEでネットワークやデータセンターを担当している三枝です。2017年1月にJANOG39で登壇する機会を頂きましたので、今回
In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post
このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。 で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。 調べた感じ、やれないこともなさそうな雰囲気…。 Testing Spark Streaming Applications http://eng.tapjoy.com/blog-list/testing-spark-streaming-applications https://spark-summit.org/2014/wp-content/uploads/2014/06/Testing-Spark-Best-Practices-Anupama-Shetty-Neil-Marshall.pdf ちょっと、やってみましょう! 追記) ドキュメントをよーく見ると、ここに
はじめに Sparkの基本的な仕組み データコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基本的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD, DataFrameからDatasetへの書き換え DataFrameからDatasetへ RDDからDatasetへ おわりに はじめに Livesense Advent Calendar 2016の11日目の記事です。 昨今ではAmazon Elastic Mapreduce (EMR)などのマネージドサービスの登場により、分散データ処理基盤を構築・運用するハードルは劇的に下がっています。 ソフトウェアの選択肢も広がり、特にApache Sparkはオンメモリ処理を
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く