[B! 大規模データ処理] subarukunのブックマーク

高速かつ省メモリで文字列を扱うデータ構造「wavelet tree」

はじめに大規模なデータを扱うアプリケーションでは、速度とともに作業領域量も大きな問題となります。作業領域がメインメモリに収まらない場合、スワッピングが発生し、大幅な速度低下につながります。そのため近年、データ構造は高速なだけでなく、作業領域量が小さいことも求められています。今回紹介するのは2003年に提案されたデータ構造、wavelet tree（以下「WT」と表記）です。WTは圧縮索引やSuccinct Data Structureなど、データをコンパクトに表現する際に重要なデータ構造です。WTは文字列T[0...n-1]が与えられた時、次の2つの操作を定数時間でサポートします。 rank(p, c)――T[0...p]中のcの出現回数を返す select(i, c)――(i+1)番目のcの位置を返す WTの作業領域量は、文字列をそのまま保存した時の約2倍程度です。対象読者 C++の

subarukun 2008/11/12

『WTは圧縮索引やSuccinct Data Structureなど、データをコンパクトに表現する際に重要なデータ構造です』

リンク

KOF 2008 の発表資料 - naoyaのはてなダイアリー

KOF 2008 での発表資料「はてな流大規模データ処理」を以下にアップロードしました。 http://bloghackers.net/~naoya/ppt/081108huge_data.ppt 一部参考文献からの引用 (Introduction to Information Retrieval から Vector space model の図、たつをの ChangeLog から転置インデックスの図) があります。この場を借りて感謝。環境によってはおそらくフォントの表示がいまいちだと思いますが、ご了承ください。追記 SlideShare にアップロードしました。 081108huge_data.pptView SlideShare presentation or Upload your own. (tags: linux mysql) 追記: メモリはディスクの 150 倍について

subarukun 2008/11/11

リンク

「はてな流大規模データ処理」を見てきた - もぎゃろぐ

KOF2008：関西オープンソース2008というイベントに来ています。はてなの伊藤さんの講演があったので、講演メモを公開。＃ボクがメモした内容であって、100%言ったとおりに書いてあるわけじゃないので、参考としてご覧ください。 (続き) アジェンダ大規模なデータ OSのキャッシュ MySQLの運用大規模データアプリケーションの開発データの例はてなブックマークのデータ量：五千万件くらいのデータ量このデータに対して何百万人がアクセスしてくる状況でどういう作りにするかレコード数 1073万エントリー 3134万エントリー 4143万タグデータサイズエントリー2.5GB 何の工夫もなく普通にアクセスすると...200秒待っても結果が帰ってこない大規模データの難しいところ開発サーバで開発者が作っている時は快適に動いていても、多数の人間がアク

subarukun 2008/11/11

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

大規模データ処理に関するsubarukunのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス