タグ

redshiftに関するjoker1007のブックマーク (6)

  • データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ

    こんにちは、みんなのウェディングに出向中の小室 (id:hogelog) です。 今回はクックパッドとみんなのウェディングで利用しているデータベースドキュメント管理システム dmemo を紹介します。 https://github.com/hogelog/dmemo dmemo を作成し導入した経緯 私は2016年3月頃からみんなのウェディングで Redshift, bricolage, embulk, re:dash 等を利用したデータ分析基盤の構築を進めています。 (みんなのウェディングのデータ分析基盤の現状 - みんなのウェディングエンジニアリングブログ) 社内の誰でも扱えるデータベース、データの集約・計算・加工、ダッシュボードの作成、クエリの共有などは上記ブログ記事でも書いたように Redshift, bricolage, embulk, re:dash 等を組み合わせることで実現

    データベースドキュメント管理システム dmemo のご案内 - クックパッド開発者ブログ
  • Cookpad TechConf 2016 - DWHに必要なこと

    2019/3/7に開催される勉強会「データ分析を理解する。データウェアハウスモデリング入門」の講演資料の事前公開版です。最終版は別途公開します。 勉強会については以下を参照してください。 https://clubdb2.connpass.com/event/120866/

    Cookpad TechConf 2016 - DWHに必要なこと
  • 巨大なバッチを分割して構成する 〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ

    トレンド調査ラボの青木峰郎(id:mineroaoki)です。 好きなRubyのメソッドは10年前からString#slice(re, nth)ですが、 最近はRubyよりCoffeeScriptとSQLのほうが書く量が多くて悩んでいます。 今日はわたしが開発している「たべみる」の背後で働いている 巨大バッチの構成について話したいと思います。 たべみるのバッチは約3000行のSQLで構成されており、 処理時間が1日で4時間程度かかる、そこそこの規模のプログラムです。 このバッチ処理プログラムをBricolage(ブリコラージュ)というフレームワークで構造化する手法について説明します。 「たべみる」とは まず最初に、「たべみる」がどういうものなのかごく簡単にお話ししておきましょう。 「たべみる」は企業のみに提供しているB2Bの分析サービスで、 クックパッドレシピ検索の分析をすることができま

    巨大なバッチを分割して構成する 〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ
    joker1007
    joker1007 2015/07/01
    今、ちょうどこれの劣化縮小版みたいな仕事してるので、超便利情報だった!
  • Amazon Redshift クエリパフォーマンスチューニング ベストプラクティスを読んでみた | DevelopersIO

    Amazon Redshiftでは『ベストプラクティス』なるテーマで、それぞれの局面でのお作法的な設定、改善の為のノウハウがドキュメントとして適宜追加or更新されています。ちょうど去年の8月にクラスメソッドにジョインした際もこの辺りのドキュメントについて幾らか目を通して参りましたが、英語ドキュメントを訪れてみると更に充実した形で『ベストプラクティス』が整備されているようです。そこで当エントリでは『クエリパフォーマンスチューニング』という切り口で更新されている以下ドキュメントを改めて読み直してみたいと思います。 Amazon Redshift Best Practices - Amazon Redshift 目次 1.パフォーマンスを考慮したテーブル設計を行う 1-a.最善のソートキーを選択する 1-b.最善の分散キーを選択する 1-c.COPY時に『自動圧縮あり』でデータをロードし、オスス

    Amazon Redshift クエリパフォーマンスチューニング ベストプラクティスを読んでみた | DevelopersIO
  • Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

    Redshiftで色々環境構築や調査を進めて行くと、割とちょいちょい良く使うSQL等も出て来ます。そこでこのエントリでは、普段使っている便利系SQL、都度アクセスしてはコピペして使ってるようなSQL、更にはそれらにちょっと一手間加えたSQL等を集約し一覧としてみる事にしました。 必須なもの、また『これも使えるね』というようなものについては適宜追加更新を行っていこうと思ってますので、オススメのSQL文があれば是非教えて頂けると幸いです。 目次 S3からのCOPY処理エラーに関するログを確認する COPY処理時に出力させるエラー件数量を制御する 指定テーブルのテーブル定義を確認する(type1:psqlコマンドで簡易表示) 指定テーブルのテーブル定義を確認する(type2:distkey,sortkey等も表示) 指定テーブルのテーブル定義を確認する(type3:コメント文も併せて表示) テー

    Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO
  • これからAmazon Redshiftを始める技術者が注意すべき11つのポイント | DevelopersIO

    更新版がこちらにありますので、こちらもぜひご覧ください。 これからAmazon Redshiftを始める技術者が注意すべき22つのポイント Amazon Redshiftを使った実案件を経験してこれは注意したほうがいいなというポイントをまとめました。自分が経験した範囲で書いているので多少偏っているかもしれませんが、参考になれば幸いです。データウェアハウスって何?という方は以前入門記事を書きましたのでこちらの記事をご覧ください。 気軽に始めてみよう!クラウド時代のデータウェアハウス超入門 注意事項一覧 PostgreSQLと違う点に注意! 1件ずつINSERTするととても遅いので注意! 主キー制約、一意制約、外部キー制約は違反してもエラーにならないので注意! COPYコマンドは全件INSERTなので注意! CSVでアップロードする場合の注意点! サポートしているデータ型に注意! エンコーディ

    これからAmazon Redshiftを始める技術者が注意すべき11つのポイント | DevelopersIO
  • 1