はじめに HiveはHDFS上のデータをSQLで操作できるHadoopのエコシステムです。Facebook社により開発され、現在はApacheのトッププロジェクトの一つです。 Hiveがリリースされてから7年ほど時間が経ちました。 その間に他のビッグデータ用のSQLエンジンがいくつか登場しました。 これらのSQLエンジンの多くは、Hiveが苦手としていた低レイテンシなクエリの実行に応えることにフォーカスしています。 従来HiveのバックエンドはMapReduceで動いており、クエリを実行すると完了するまで数分から数十分、数時間の時間がかかりました。そのためアナリストの解析用途で利用するのは難しく、主にデイリーやアワリーの集計などのバッチ処理として利用されてきました。 しかしながら、現在もHiveの開発・改善は非常に活発に行われています。特にここ1〜2年の間にHortonworks社を中心と
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) 分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~ (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTTデータ システム技術本部 デジタル技術部 梅森 直人 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=NDb9nORBT_A "Apache Flink’s Exactly-Once Semantics (EOS) integration for writing to Apache Kafka has several pitfalls, due mostly to t
Hive tables are an integral part of the big data ecosystem, but the simple directory-based design that made them ubiquitous is increasingly problematic. Netflix uses tables backed by S3 that, like other object stores, don’t fit this directory-based model: listings are much slower, renames are not atomic, and results are eventually consistent. Even tables in HDFS are problematic at scale, and relia
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く