This document discusses SQL engines for Hadoop, including Hive, Presto, and Impala. Hive is best for batch jobs due to its stability. Presto provides interactive queries across data sources and is easier to manage than Hive with Tez. Presto's distributed architecture allows queries to run in parallel across nodes. It supports pluggable connectors to access different data stores and has language bi
We are thrilled to announce the general availability of the Cloudera AI Inference service, powered by NVIDIA NIM microservices, part of the NVIDIA AI Enterprise platform, to accelerate generative AI deployments for enterprises. This service supports a range of optimized AI models, enabling seamless and scalable AI inference. Background The generative AI landscape is evolving […] Read blog post
We are thrilled to announce the general availability of the Cloudera AI Inference service, powered by NVIDIA NIM microservices, part of the NVIDIA AI Enterprise platform, to accelerate generative AI deployments for enterprises. This service supports a range of optimized AI models, enabling seamless and scalable AI inference. Background The generative AI landscape is evolving […] Read blog post
War of the Hadoop SQL engines. And the winner is …? You may have wondered why we were quiet over the last couple of weeks? Well, we locked ourselves into the basement and did some research and a couple of projects and PoCs on Hadoop, Big Data, and distributed processing frameworks in general. We were also looking at Clickstream data and Web Analytics solutions. Over the next couple of weeks we wil
Lot of workloads exist for Big data, batch, machine learning, search, interactive SQL, Operational/user facing applicationsApache Drill fits into the interactive SQL category Analytics on Semi-Structured/Nested dataUse standard SQL to query Nested data without upfront flattening/modelingExtensions to ANSI SQL to operate on nested dataGeneric architecture for a broad variety of nested data types (e
by The Hadoop Platforms Team Low-latency SQL queries, Business Intelligence (BI), and Data Discovery on Big Data are some of the hottest topics these days in the industry with a range of solutions coming to life lately to address them as either proprietary or open-source implementations on top of Hadoop. Some of the popular ones talked about in the Big Data communities are Hive, Presto, Impala, S
Apache Drill: Building Highly Flexible, High Performance Query Engines by M.C. Srivas, Co-founder and CTO at MapR SQL is one of the most widely used languages to access, analyze, and manipulate structured data. As Hadoop gains traction within enterprise data architectures across industries, the need for SQL for both structured and loosely-structured data on Hadoop is growing rapidly Apache Drill s
Hadoop+SQL+インメモリ、マルチクラウド対応の「Pivotal One」プラットフォーム発表。EMC World 2013 EMCがラスベガスで開催中のイベント「EMC World 2013」。2日目の基調講演には、EMCとVMwareが設立した新会社「Pivotal」のCEO ポール・マリッツ(Paul Maritz)氏が登壇し、クラウド時代のアプリケーション基盤となる「Pivotal One」を発表しました。 Pivotalは、EMCが買収したGreenplumや開発コンサルタントのPivotal Labs、VMwareが買収したSpring SourceやCloudFoundryなどのチームを集めて12月に発足した組織。今月から正式な企業としての活動を開始しています。 Pivotal Oneは、ビッグデータとクラウド時代のアプリケーション基盤として、同社が今年末にリリース予定
Teradata Blogs When big data becomes vast, what's your data dropping strategy? Read more Support Teradata at Your Service (TAYS) Simple, secure customer access to products, services, education, and support function information. Read more Certifications Teradata Certified Professional Program (TCPP) Management, development, and oversight of the premiere Teradata Certification Program. Read more Con
"So, how much experience do you have with Big Data and Hadoop?" they asked me. I told them that I use Hadoop all the time, but rarely for jobs larger than a few TB. I'm basically a big data neophite - I know the concepts, I've written code, but never at scale. The next question they asked me. "Could you use Hadoop to do a simple group by and sum?" Of course I could, and I just told them I needed t
HadoopのReduceに渡されるのはキーと値のリストだが、このとき値のリストに含まれる各アイテム(値そのもの)はソートされていない。ソートされていて欲しい場合にはセカンダリソートと呼ばれるテクニックを使うのが定石とされているが、これは実装の面でも概念的な面でもバッドノウハウ的な側面がある。Hadoopには「キーをソートする」機能は実装されている。そこで、値をキーに入れてしまい、このHadoopに備わっている「キーをソートする」機能によって、実質的に値をソートしようというわけだ。 Map/Reduceというのはキーごとにデータを分割して処理する方法なので、「キーに値が入ったら分割がおかしくなるんじゃ?」と思うのは当然である。キーに値が入っていても、分割に影響しないよう、Partitioningクラスを自分で拡張し、分割の基準となる値(本来のキー)には、値の影響が出ないようにするのだ。それ
SQLで小計や総合計を求める時にGROUP BYを利用することが多いと思いますがいろんな軸で集計したい場合にROLLUP, CUBE, GROUPING SETSを使うことができるようです。 詳しくはこちら参照 http://homepage2.nifty.com/sak/w_sak3/doc/sysbrd/sq_kj04_4.htm ROLLUP, CUBE, GROUPING SETSを使うことができますと断定していないのは僕が試してないからです(汗 なぜ試していないかというとこれらの機能を利用できるのがOracle, SQL Server, DB2だからです。Oracle XEをダウンロードしようかと思いましたけどユーザ登録に心が折れましたw ちなみにMySQLではROLLUPのみサポートしているらしいです。 今回は考えられる全ての組み合わせで集計するCUBEについて書いてみたいと思
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く