[B! spark] [2ページ] BigFatCatのブックマーク

_corrupt_record error when reading a JSON file into Spark

BigFatCat 2017/01/30

spark

リンク

Spark Standalone Mode - Spark 3.5.1 Documentation

Spark Standalone Mode Security Installing Spark Standalone to a Cluster Starting a Cluster Manually Cluster Launch Scripts Resource Allocation and Configuration Overview Connecting an Application to the Cluster Client Properties Launching Spark Applications Spark Protocol REST API Resource Scheduling Executors Scheduling Stage Level Scheduling Overview Caveats Monitoring and Logging Running Alongs

BigFatCat 2017/01/30

簡単そうなので試す。お手軽なmasterの復旧： "Single-Node Recovery with Local File System"

spark

リンク

Apache SparkのWebUI、いろいろ比較してみた

Sparkを実行できるWebUIをいくつか比較してみました。対象としたのは下記の３つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)

BigFatCat 2017/01/23

spark

リンク

Spark SQL vs. Apache Drill-War of the SQL-on-Hadoop Tools

BigFatCat 2017/01/23

用途的にはdrillのほうが適してそう。パフォーマンスはどうか分からない。

spark
drill

リンク

A comprehensive comparison of Jupyter vs. Zeppelin

No choice is not good. But life could be complicated with too many choices (especially when we have no idea how to make decision). As a lifelong student of data science and techno logy in general, I usually run into challenges of what tool to use and fall in love with. That's why I'm writing this post to help learners like myself. I'm not going to talk about the commercial techno logies (such as Ada

BigFatCat 2017/01/21

zeppelin

spark

リンク

Hue - The open source SQL Assistant for Data Warehouses

BigFatCat 2017/01/21

SparkSQLを実行して結果をダウンロードするweb uiとして一番良さそう。←追記：依存がやばそう：Python 2.6.5 - 2.7とDjango 1.6 (https://docs.djangoproject.com/)

spark

リンク

JSON + bz2 + Spark = WINNING

BigFatCat 2017/01/20

全ユーザを1つのjsonファイルにして、bz2で固めるのもありか。

spark

リンク

Cloudera | ハイブリッドデータカンパニー

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

BigFatCat 2017/01/12

sc.textFile("hdfs://sandbox.hortonworks.com:8020/tmp/yahoo_stocks.csv") ←HDFSに入れたデータをロードするにはschemeにhdfsを指定すればよいだけ。ということは、既にHDFSクラスタがあればそこにdata入れて使えばよい。

リンク

Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014～2019年にかけて年間平均成長率33.5％で拡大し、2019年には470億6100万円に達する。ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

BigFatCat 2017/01/12

"Hiveのクエリ言語は“SQLライク”なHiveQLであり、Hadoop上で標準SQLを使いたいという声があった。" Sparkは標準SQL

hive
spark

リンク

Spark 2.0の性能検証の結果とボトルネックの考察

はじめに前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境（システム構成、パラメータ）とその検証結果を解説します。システム構成データ分析システムの概要データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。本連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。ハードウェア構成データ処理基盤は仮想サーバ3台、物理

BigFatCat 2017/01/12

リンク

spark/examples/src/main/scala/org/apache/spark/examples/sql/SQLDataSourceExample.scala at master · apache/spark

BigFatCat 2017/01/05

runJsonDatasetExample書き換えて、file globが効くか試す。

spark

リンク

Spark SQL and DataFrames - Spark 3.5.1 Documentation

Spark SQL, DataFrames and Datasets Guide Spark SQL is a Spark module for structured data processing. Unlike the basic Spark RDD API, the interfaces provided by Spark SQL provide Spark with more information about the structure of both the data and the computation being performed. Internally, Spark SQL uses this extra information to perform extra optimizations. There are several ways to interact wit

BigFatCat 2017/01/05

DataFrameのsave方法。formatを指定できる。

spark

リンク

Spark Release 2.0.0 | Apache Spark

Apache Spark 2.0.0 is the first release on the 2.x line. The major updates are API usability, SQL 2003 support, performance improvements, structured streaming, R UDF support, as well as operational improvements. In addition, this release includes over 2500 patches from over 300 contributors. To download Apache Spark 2.0.0, visit the downloads page. You can consult JIRA for the detailed changes. We

BigFatCat 2017/01/04

SQLContextがSparkSessionに置き換えられたらしい → "SparkSession: new entry point that replaces the old SQLContext and HiveContext for DataFrame and Dataset APIs. SQLContext and HiveContext are kept for backward compatibility."

spark

リンク

株式会社ALBERT（レコメンドエンジン）

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

BigFatCat 2017/01/04

"RDD#sample() でランダム抽出（テスト時に便利）"

spark

リンク

Spark SQLサンプルアプリの実行 - Qiita

Spark SQLではDataFrameと呼ばれる抽象的なデータ構造（RDBのテーブルのように行と名前とデータ型が付与された列の概念を持つデータ構造）を用いる。DataFrameはRDD、HIVEテーブル、他のデータソース（ファイルなど）から生成できる。 -DataFrameによる操作 -テーブル形式のデータセットに対してクエリを発行 http://spark.apache.org/docs/latest/sql-programming-guide.html https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html SparkSQLサンプルアプリの実行 Spark入門の６章に記載されているプログラムをScalaではなくPython3を使って書き直す。 csv形式のデザートメニュー（メニューID、メニューの名前、値段、カロ

BigFatCat 2017/01/03

"RDDからDataFrameを生成"

spark

リンク

[Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO

はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transf ormations」と「Actions」です。「Transf ormations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD

BigFatCat 2017/01/03

spark

リンク

What is the best way to read a random line from hundreds of files millions of times in Spark?

BigFatCat 2017/01/03

spark

リンク

SparkのRDDについて - TASK NOTES

Apache Spark の RDD について。 RDDの基本耐障害性分散データセットであるRDD（Resilient Distributed Dataset）の特徴は以下の通りです。イミュータブルなオブジェクトの分散コレクションである。復数のパーティションに分割されクラスタの各ノード上で処理される。生成や変換が遅延評価される。 RDD は復数のマシンから構成されるクラスタ上での分散処理を前提として設計されており、内部的にはパーティションに分割されています。Spark ではこのパーティションが分散処理の単位となり、パーティションごとに復数のマシンで処理することによって、単一のマシンでは処理しきれない大量のデータを扱うことができるのです。 Scala Doc - org.apache.spark.rdd.RDD Java Doc - org.apache.spark.api.java