タグ

ブックマーク / zenn.dev/ryotas_data (2)

  • Snowflakeパフォーマンスのカギはやっぱりデータモデリング

    この記事はSnowflakeアドベントカレンダー2023の19日目です。 はじめに 昨年、Snowflakeのパフォーマンスにおいて非常に重要な概念であるクラスタリングとプルーニングに関して、以下の記事を書きました。 なぜクラスタリングやプルーニングが大事なのかを説明させてもらったのですが……理屈はわかった!ではどうすれば?という、具体的なユースケースについて全く書けておらず、また別のブログにします、と宣言しておいて、1年間完全に放置してしまっていました。すみません。。 この記事では、上記の記事の続きとして、クラスタリング・プルーニングの概念を知ったうえで、具体的にパフォーマンスを向上させるにはどうすれば良いかのヒントとなるようなものを書きたいと思います。 具体的には、そうデータモデリングです! データモデリング万能説 データモデリングがめちゃくちゃ大事だよ!ってことは、SnowVilla

    Snowflakeパフォーマンスのカギはやっぱりデータモデリング
  • Amazon MWAAでdbt Coreをサクッと使ってみたかった

    この記事はdbtアドベントカレンダーの23日目です。(すみません!遅刻しました!) はじめに dbtプロジェクトやモデルをジョブスケジューリングして実行するには、いくつかの選択肢がありますが、特にdbt Coreを使われている場合はApache Airflowを利用されていることが多いように思います。 AirflowはOSSのワークフロー管理ツールで、Pythonによる容易なワークフロー(DAG)の定義とGUIによる管理のしやすさにより、データエンジニアリング界隈で大変人気があります。実行環境としてもDockerコンテナによる分散実行が可能であり、そのスケーラビリティが魅力的です。 ただ、OSSであるため、スケーラブルな環境を自力で構築するのは多少手間がかかってしまいます。そのため、ちょっとした操作でAirflow環境をシュッと立ちあげてくれるマネージドサービスが重宝されます。GCPの「

    Amazon MWAAでdbt Coreをサクッと使ってみたかった
  • 1