タグ

圧縮に関するhiroyukimのブックマーク (6)

  • MySQLの新しいInnoDB ページI/O圧縮機能について解析してみた

    InnoDBにはデータの圧縮機能がありますが、パフォーマンスが低いことからあまり使われていません。ただ今年の Percona Live で Oracle MySQL, MariaDB, そして Percona Server が新しい InnoDB Compression を出してきました。これはFusion-ioの R&D チームがフラッシュストレージ向けの MySQL 高速化の一環で開発したパッチが元になっています。ちなみに私は Fusion-io の社員ですのでこの発表をワクテカして待っていたのですが、折角コードが一般にリリースされたので、ソースコードを眺めて動作を調べることにしました。 参考にしたのは MySQL Server Snapshots (labs.mysql.com) にあるMySQL with InnoDB PageIO Compression のソースコード、およびM

  • 言語処理学会年次大会で文法圧縮チュートリアル講義をしてきました - Preferred Networks Research & Development

    まるまるです。春がきてますね。東京はだいぶ暖かくなってきました。 先週(3/17〜3/20)行われた言語処理学会第20回年次大会(NLP2014)において「文法圧縮入門:超高速テキスト処理のためのデータ圧縮」というタイトルでチュートリアル講義をさせて頂きました。 講義資料はSlideShareで公開しています。 文法圧縮とは、文字列を木構造に変換し、その木構造に含まれる冗長部分を文脈自由文法の生成規則として集約させて表現する圧縮法です。この圧縮法は近年の文字列アルゴリズム業界で注目を集めており、主に以下の様な特徴があります。 冗長度の高いデータ(例えばゲノム集合、バージョン管理文書、ウェブアーカイブなど)を効果的に圧縮できる。 圧縮したまま高速に検索処理などを行える(圧縮文字列処理)。 木構造などのデータ構造の圧縮にも使われる(圧縮データ構造)。 NLPとは直接結びつかない内容ですが、文字

    言語処理学会年次大会で文法圧縮チュートリアル講義をしてきました - Preferred Networks Research & Development
  • 圧縮情報処理ノススメ - An Encouragement of Compression 坂本比呂志 (PDF)

    圧縮情報処理ノススメ An Encouragement of Compression 坂比呂志 データをどれだけ小さくできるかという根源的な問いは,現在もデータ圧縮の主要テーマであり続けている.一方で, データ圧縮は時代とともに新しい価値を獲得してきた.例えば,文字列データを圧縮することで高速検索する理論が 1990 年代に提案され,様々な分野で活用されている.そして現代は,圧縮しなければならない巨大なデータ,圧縮デー タに高速アクセスするための理論,それを実現するハードウェアの全てがそろっている.そこで,文字列圧縮について解 説し,初学者の道標としたい. キーワード:データ圧縮,文字列アルゴリズム,文法圧縮,ストリームデータ .は じ めに どんな大きな情 縮前後のサイズの比が 1% 未満というのは損失がない可 逆圧縮の条件の下では通常考えられない値である. さて前置きが

  • ログファイルの圧縮方法

    圧縮レベル2と3では、bzip2よりずっと短い所要時間で高い圧縮率が得られています。興味深いのはレベル4で、所要時間が大きく増えたのに圧縮率が下がっています。xzはレベル4からLZ法の一致文字列を探すアルゴリズムが変わるので、これが裏目に出ているようです。 bzip2より2割以上高い圧縮率が得られるレベル7以上では、所要時間は5倍以上になります。ログファイルの圧縮方式が混ざるのは何かと面倒なので、5倍の所要時間でこの程度の圧縮率の差ではxzに変更する気にはなれないです。 圧縮率はそうでもないですが、xzの伸張速度の速さはとても魅力的です。デフォルトの圧縮率のファイルを伸張するのに、bzip2が1分22秒かかるのに対してxzは25秒しか掛かりません。ログを集計するときに伸張速度が3倍近く速いのはとても有利です。 もし圧縮方法を決め直せるならxzにするかもしれません。適宜レベルを調節してbzi

  • 各種圧縮ソフト 圧縮速度と圧縮率の比較(並列版含む)

    下記の表は gzip の標準状態を 1 とした相対的な数値を示しています。 Software 欄の -1 や -9 は、コマンドに指定できる圧縮率です。 -1 が最低、 -9 が最高になっているコマンドが多いです。 並列に実行できるものに関してはすべて 8 スレッドで実行しています。 ベンチマーク結果 time real 実際の経過時間 time user CPU user 時間 compression ratio 圧縮率の比。大きいほどファイルが大きい。 compression ratio (single/parallel) 並列版について、シングルスレッドに対する圧縮率の比 parallel overhead シングルスレッド版と比較した CPU user時間の比

    各種圧縮ソフト 圧縮速度と圧縮率の比較(並列版含む)
  • 浮動小数点(IEEE754)を圧縮したい@dsirnlp#4

    2015年9月18日開催 GTC Japan 2015 講演資料 エヌビディア合同会社 プラットフォームビジネス部 シニアCUDA エンジニア 森野 慎也 CUDA Tookitでは、Nsight、Visual Profilerなどの開発ツールが、標準で提供されています。セッションでは、これらのツールを用いたデバッグ・プロファイリングの基操作について、説明します。また、事例を用い、効率のよいデバッグ法、プロファイリング時の基的な確認ポイントもあわせて紹介します。プラットフォームは、WindowsLinuxの両者が対象となります。

    浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
  • 1