タグ

orcに関するuokadaのブックマーク (2)

  • カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog

    こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie(@chie8842)です。 好きなたべものは焼肉とみかんです。 現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。 今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。 はじめに - カラムナフォーマットとは カラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで

    カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog
  • AWS Solutions Architect ブログ

    ソリューションアーキテクトの岩永 (@riywo) です。先日Amazon Data Services Japanの目黒オフィスにて、Amazon EMRでHiveとPrestoを体験するハンズオンセミナーを開催し、19名の方にご参加頂きました。 セミナー内では、Amazon EMRの機能紹介に始まり、Hiveやそれにまつわる技術の紹介、またPresto等の紹介を行いながら、実際にAmazon EMRのクラスタを起動してHive/Prestoでクエリを実行したり可視化したりして頂きました。 HiveとPrestoで同じクエリを実行した際の比較では、その速度の違いに驚きの声も出ていました。やはりこういったことは手を動かして体験してみるに限ります。 補足 今回のハンズオンでは、S3上にあるJSONのログデータを、Hiveを使ってORC FileにETLしてS3に保存し、Prestoからそれを可

  • 1