Maybe you’re a seasoned Cassandra veteran, or maybe you’re someone who’s stepping out into the world of NoSQL for the first time—and Cassandra is your first step. Maybe you’re well versed in the problems that secondary indexes pose, or maybe you’re looking for best practices before you invest too much time and effort into including Cassandra in your stack. The truth is, if you’re using Cassandra o
This document discusses flexible indexing in Hadoop. It describes how Twitter uses Elephant-Twin, an open source library they developed, to create indexes at the block level or record level in Hadoop. Elephant-Twin allows minimal changes to jobs/scripts, indexes data without copying it, supports post-factum indexing, and indexes can be used to efficiently retrieve relevant data through an IndexedI
This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (June 2015) (Learn how and when to remove this message) In computing, GiST or Generalized Search Tree, is a data structure and API that can be used to build a variety of disk-based search trees. GiST is a generalizati
IntroductionThis document explains how we are planning to add support in Hive's optimizer for pushing filters down into physical access methods. This is an important optimization for minimizing the amount of data scanned and processed by an access method (e.g. for an indexed key lookup), as well as reducing the amount of data passed into Hive for further query evaluation. Use CasesBelow are the ma
This document summarizes a presentation on using indexes in Hive to accelerate query performance. It describes how indexes provide an alternative view of data to enable faster lookups compared to full data scans. Example queries demonstrating group by and aggregation are rewritten to use an index on the shipdate column. Performance tests on TPC-H data show the indexed queries outperforming the non
Indexing Is Removed since 3.0There are alternate options which might work similarily to indexing: Materialized views with automatic rewriting can result in very similar results. Hive 2.3.0 adds support for materialzed views.Using columnar file formats (Parquet, ORC) – they can do selective scanning; they may even skip entire files/blocks. IntroductionThis document explains the proposed design for
This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed. Find sources: "Database index" – news · newspapers · books · scholar · JSTOR (May 2024) (Learn how and when to remove this message) A database index is a data structure that improves the speed of data retrieval operati
テキスト索引パトリシア木を作り終えて,今度はString B-Treeの実装していたんだけど,階層化パトリシア木でも良いのかなっとかsuffix木の階層化の話で良いのが提案されてるかも...と気になって,CPS-tree: A Compact Partitioned Suffix Tree for Disk-based Indexing on Large Genome Sequencesという論文を読んでた。結論としてはString B-Treeで良いや,なんだけど。 Suffix Treeを素直にページサイズごとに切って,少し工夫しましたというようなお話。ICDE2007なんだけど,2007年までsuffix treeの二次記憶への格納の話があんまりされていないことに驚き。索引構築と主記憶に収まるように極小表現を考えたり,主記憶上の話が主に研究課題であったようだ。 悪くない論文なんだけど
R-Tree を勉強します。 参考 Rtrees: Theory and Applications この本のサンプル pdf がたぶんわかりやすい (chap.1, chap.2) R-Trees: A Dynamic Index Structure for Spatial Searching 原著論文 目的 与えられた矩形と交差する図形を探索する問題を考えます。window query と言うらしいです。これを効率的に実行するためのデータ構造が R-Tree です。 R-Tree の概要 R-Tree は B+-Tree の構造をしています。B+-Tree は、 leaf に要素が入っていて非 leaf の node は探索の為のインデックスのみを持っている B-Tree です、たぶん。R-Tree の leaf に入る要素は Minimum Bounding Rectangle (MB
Cell method データ領域を包含するセルのサイズを事前に決定する必要があるため、動的なデータベースには不利のようです。 各セルは、そのセル領域と重なる領域の識別子を持ちます。セルを細かく区切れば検索精度は向上しますが、使用するデータ領域が増加します。 Digital MapはCell methodにより読み込む領域を検索していますが、すべてオンメモリでデータ構造を構築しているため、セルのサイズを大きくせざるを得ず、検索精度があまりよくありません。それに加えて数値地図25000には領域の外接長方形のデータしかないのでcell methodの恩恵をあまり受けることができず、地図データの読み込みが遅く、また表示領域以外の領域が読み込まれることが多々あります。 Quad Trees 領域を4分割(2次元)することで木構造を構築します.ディスク上に構築する際には、2分割するよりも高速です.ペ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く