showyouのブックマーク / 2018年10月4日

dockerでhadoopクラスター作成

showyou 2018/10/04

hadoop

リンク

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016 - [PDF Document]

showyou 2018/10/04

hive

リンク

Hive クエリを最適化する - 毛無しさん@キレートレモン

Hadoop本 HADOOP HACKS を参考に、HiveQL がどんな Map/Reduce タスクに展開されるのかを想像しつつ(ソースは読んでないのであくまで想像)、効率の良い Hiveクエリの書き方を考えてみる。まずは、普通のクエリ SELECT * FROM movie は、どんな Map/Reduce タスクに変換されるんでしょうか？ hive で > EXPLAIN SELECT * FROM movie; とやってみると、 ABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME movie))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF)))) ST

showyou 2018/10/04

hive

リンク

LanguageManual Explain - Apache Hive - Apache Software Foundation

EXPLAIN SyntaxHive provides an EXPLAIN command that shows the execution plan for a query. The syntax for this statement is as follows: EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query AUTHORIZATION is supported from HIVE 0.14.0 via HIVE-5961. VECTORIZATION is supported from Hive 2.3.0 via HIVE-11394. LOCKS is supported from Hive 3.2.0 via HIVE-17683. AST was re

showyou 2018/10/04

hive

リンク

Hive on TezのEXPLAINを読み解く | DevelopersIO

こんにちは、小澤です。 RDBではおなじみのEXPLAIN、実行計画を確認しクエリを最適化したり、インデックスの貼り方を考えたりするのによく使われるかと思います。このEXPLAINですが、Hiveでも利用可能です。 HiveのEXPLAINはMapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊でこれらの知識も必要になります。実行エンジンによって表示され方が異なるため、今回はHive on Tezに限定してこのEXPLAINの見方を解説していきます。今回利用するクエリ今回は、TPC-DSというOLAPなどの分析系クエリのベンチマークで利用されるデータを利用して見ていきたいと思います。 TPC-DSの詳細については解説しませんので、気になる方は公式の情報をご確認ください。 TPC-DS HiveでTPC-DSを利用できる環境を整えるために、以下のスクリプトを

showyou 2018/10/04

hive

リンク

PythonとSensorTag, Kafka, Spark Streamingのストリーム処理 - Part 5: Apache Toree でJupyterからSparkに接続する | masato's blog

Sparkクラスタを用意していくつかサンプルコードを書いていこうと思います。Pythonのデータ分析や機械学習の実行環境としてJupyterは多くの方が利用していると思います。Apache ToreeでSparkアプリも同じようにJupyterからインタラクティブに書くことが目的です。ブラウザから実行できるScalaのREPLしてもJupyterを使うことができます。 Spark　SparkクラスタをDocker Composeで構築します。Docker HubとGitHubに多くのSpark Standalone Cluster用のイメージとdocker-compose.ymlが公開されています。 semantive/sparkproduktion/jupyter-pysparkgettyimages/docker-spark　いくつか試しましたがsemantive/sparkがシンプル

showyou 2018/10/04

リンク

クイックスタート:テンプレートを使用した Apache Spark クラスターの作成 - Azure HDInsight

このクイックスタートでは、Azure Resource Manager テンプレート (ARM テンプレート) を使用して、Azure HDInsight に Apache Spark クラスターを作成します。その後、Jupyter Notebook を作成し、それを使用して、Apache Hive のテーブルに対する Spark SQL クエリを実行します。 Azure HDInsight は、全範囲に対応した、オープンソースのエンタープライズ向けマネージド分析サービスです。 HDInsight の Apache Spark フレームワークにより、メモリ内処理を使用した、高速の Data Analytics とクラスターコンピューティングが可能になります。 Jupyter Notebook を使用すると、データを対話的に操作したり、コードと Markdown テキストとを結合したり、

showyou 2018/10/04

リンク

spark 2.0系Tips #1 Jupyterでpyspark - Qiita

概要みんな大好きJupyter notebook(python)上で、Pyspark/Cythonを使っていろんなことをやる。とかいう記事を書こうと思ったけど、1記事に詰め込みすぎても醜いし、時間かかって書きかけで放置してしまうので、分割して初歩的なことからはじめようとおもった。ということで、今回は、Jupyter起動して、sparkSession作るだけにしてみる。使用バージョン Python == 3.5.1 Spark == 2.0系最新（branch-2.0をビルドしたもの） notebook == 4.2.1 Sparkの最新安定バージョンは、2016-07-01現在1.6.2なんだけど、もうgithubには2.0.0-rc1出てたりする。しかもrc1出て以降も、バグフィックスとかcommitされているので、結局今使っているのは、branch-2.0をビルドしたもの。ちな

showyou 2018/10/04

リンク

Jupyter だけで機械学習を実サービス展開できる基盤 - Tech Blog - Recruit Lifestyle Engineer

こんにちは、CET チームの田村です。データ基盤を構築・運用したり、チャットボット（スマホ用です）を開発したりしているエンジニアです。皆さん、実サービスで機械学習、活用できていますか？正直、難しいですよね。高精度なモデルを作ること自体も難しいですが、実際のサービスにそれを組み込むには、そこからさらに数々の難所が待ち構えているからです。でも、そのほとんどはエンジニアリングで解消できます。私たちのチームでは、数年にわたる経験をもとに難所とその対処法を整理し、すばやく成果をあげられる機械学習基盤を開発しはじめました。本記事では、この基盤の設計とその背後にあるアイデアをご紹介します（機械学習工学研究会の勉強会での発表資料がベースです）。イテレーションを何度も回せ基盤そのものの前に、まず機械学習を成果につなげるためのポイントを説明させてください。私たちは、機械学習の活用において必要な

showyou 2018/10/04

リンク

Hortonworks Cluster on Docker – Muhammad Sahputra – Medium

showyou 2018/10/04

hadoop

リンク

Azure HDInsight で PySpark入門 | ブログ一覧 | DATUM STUDIO株式会社

はじめに他のエンジニアから引き継いだコードがある日突然エラーを吐くようになった・・・そしてコードを解読してデバッグ、というのはよくある話かと思われます。私もこの例にもれず、先輩エンジニアから引き継いだレコメンドエンジンが突然エラーを吐くようなったことがあります。この時エラーを吐いたのが、PySpark で書かれた ALS というモデルでした。まだ未熟だった私はそもそも ALS がわからない & Spark 独自の記法に翻弄され、ほんと沖縄あたりに逃げ出したくなった思い出深い奴らです、 PySpark と ALS。その時本当に困ったのは、① PySpark の実行環境を作る手間と、②（デバッグしづらい）ターミナル画面で作業しなければならないことでした。この記事では、この①、②を解消してくれる、Azure HDInsight を使い、 PySpark で簡単なレコメンドエンジンを作成して

showyou 2018/10/04

リンク

クイックスタート: Azure portal を使用して Azure HDInsight で Hadoop と Hive を使用する | Microsoft Docs

この記事では、Azure portal を使用して HDInsight で Apache Hadoop クラスターを作成し、HDInsight で Apache Hive ジョブを実行する方法について説明します。 Hadoop ジョブのほとんどはバッチジョブです。クラスターを作成し、いくつかのジョブを実行して、クラスターを削除します。この記事では、3 つのすべてのタスクを実行します。使用できる構成の詳細については、HDInsight でクラスターを設定する方法に関するページを参照してください。ポータルを使用したクラスター作成の詳細については、ポータルでクラスターを作成する方法に関するページを参照してください。このクイックスタートでは、Azure Portal を使用して HDInsight Hadoop クラスターを作成します。また、Azure Resource Manag

showyou 2018/10/04

Azure

リンク

初級ハンズオン [A. 抽出]（アクセスログ編） – Arm Treasure Data

showyou 2018/10/04

sql

リンク

はてなブックマーク

タグ

2018年10月4日のブックマーク (13件)

dockerでhadoopクラスター作成

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016 - [PDF Document]

Hive クエリを最適化する - 毛無しさん@キレートレモン

LanguageManual Explain - Apache Hive - Apache Software Foundation

Hive on TezのEXPLAINを読み解く | DevelopersIO

PythonとSensorTag, Kafka, Spark Streamingのストリーム処理 - Part 5: Apache Toree でJupyterからSparkに接続する | masato's blog

クイックスタート:テンプレートを使用した Apache Spark クラスターの作成 - Azure HDInsight

spark 2.0系Tips #1 Jupyterでpyspark - Qiita

Jupyter だけで機械学習を実サービス展開できる基盤 - Tech Blog - Recruit Lifestyle Engineer

Hortonworks Cluster on Docker – Muhammad Sahputra – Medium

Azure HDInsight で PySpark入門 | ブログ一覧 | DATUM STUDIO株式会社

クイックスタート: Azure portal を使用して Azure HDInsight で Hadoop と Hive を使用する | Microsoft Docs

初級ハンズオン [A. 抽出]（アクセスログ編） – Arm Treasure Data

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス