タグ

query optimizerに関するkimutanskのブックマーク (2)

  • Sparkのクエリ処理系と周辺の話題

    3. 3Copyright©2016 NTT corp. All Rights Reserved. • MapReduceを⼀一般化した処理理モデルを基にした分散並 列列処理理のためのフレームワーク • DataFrame/Dataset  API上に様々なワークロード向 けのライブラリを提供(Unified  Engine) Sparkとは? (クエリ最適化を担当) (クエリ実行を担当) 4. 4Copyright©2016 NTT corp. All Rights Reserved. • 不不変で並列列実⾏行行可能な分散コレクションで,Sparkにお ける唯⼀一のデータ操作のためのAPIを実装 Spark  RDD  -‐‑‒  Resilient  Distributed  Dataset val data = Array(1, 2, 3, 4, 5)     // Scalaのローカ

    Sparkのクエリ処理系と周辺の話題
    kimutansk
    kimutansk 2016/12/27
    コード生成の次のステップは・・この手のが実際に導入される?テンプレートベースの課題は確かに言わずもがな。
  • 第10回 データ処理の最適化 | gihyo.jp

    はじめに 前回は、これまで説明してきたアルゴリズムの性能を定量的に見積り、比較しました。今回は、これらの性能見積りを用いて行うデータ処理(問い合わせ)の最適化方法について説明します。 データ処理(問い合わせ)の最適化 第4回で述べたように、HadoopのSQL処理系であるHiveをはじめとし、ImpalaやPrestoなどの宣言型言語を用いるデータ処理系においては、利用者は何を(What)処理してほしいかを処理系に指示するのみであり、どのように(How)処理をしてほしいかは指定しません。すなわち、当該処理系においては、どのように処理をするかは処理系自体が決める必要があり、与えられた問い合わせ(クエリ)を最も良いと思われる方法で処理します。このように、問い合わせにおいて最良と思われるデータ処理の方法を見つけることを「⁠(⁠問い合わせ)最適化」と呼びます。 最適化においては、問い合わせを実行す

    第10回 データ処理の最適化 | gihyo.jp
    kimutansk
    kimutansk 2015/09/16
    実行計画最適化自体は昔からあるものですが、分散したデータでも基本は変わらずに適用可能と。
  • 1