タグ

ブックマーク / zenn.dev/dataheroes (7)

  • 社内向けStreamlitのデプロイの現実解

    結論 社内データを扱うアプリケーションを安全にデプロイするならCloudflare Tunnel,Cloudflare Accessを使う。要件次第ではStreamlit in Snowflakeも使える。 はじめに Streamlitはデータアプリケーションを短時間で作成できる便利なツールですが、社内データを扱うアプリケーションをデプロイする際は外部からの不正アクセスを防ぐように厳重な注意が必要です。 にもかかわらず、Streamlitを安全にデプロイする成熟した方法はまだありません。 記事では、最も単純なStreamlitのデプロイ構成の例から問題点を再確認し、それらを解決する方法を順に説明します。ただし、記事で紹介する構成を使うにはドメインのネームサーバーがCloudflareである必要があることに注意してください。 単純な構成はどう危険なのか? まずは非常に単純なStreaml

    社内向けStreamlitのデプロイの現実解
  • 2024年、Snowflake Terraformがこう生まれ変わる!

    github.com/Snowflake-Labs/terraform-provider-snowflake の2024年のロードマップが公開されました。 今後、どのように変更されそうか?またどのように付き合っていくべきかが見えるようになったので、私なりの見解をまとめてみようと思います。 ちなみに、元々はSnowflake Providerは公式が開発しているものではなく、ユーザーが作成したツールという体裁でスタートしていました。 現在では、contributorsにSnowflake社員が名を連ねていますが、過去を遡れば一般ユーザーが開発を担当していた背景があります。 そこから公式のツールとして開発体制が整備された結果、長期的にメンテナンスする上では避けては通れない破壊的変更を含む設計の見直しが進められるに至った、という経緯があります。 ロードマップの内容 原文: ROADMAP.md

    2024年、Snowflake Terraformがこう生まれ変わる!
  • GA4もSnowflakeで分析する時代がついに来たぞ!

    2024年1月29日、GA4とSnowflakeの公式コネクタがリリース(プレビュー)されました。 ついに、GA4もSnowflakeで分析する時代がやってきました。 GA4×Snowflakeの組み合わせがやっとプロダクション運用可能なレベルに到達したのです。 これは今回のコネクタリリースでGA4のプロパティ取り込みパイプラインの運用コストが圧倒的に下がったことに起因します。 公式コネクタのリリース以前からGA4をSnowflakeに取り込むことは可能でしたが、その運用を継続することは様々な観点から困難でした。 この記事では、従来の取り込みソリューションと、最新の公式コネクタを比較して4つの観点から素晴らしい部分を解説します。 GA4のデータの取り込みが容易になった 取り込み後のデータの冗長な変換が不要になった 取り込みの金銭的コストが圧倒的に低くなった GA4のデータ取り込みに公式サポ

    GA4もSnowflakeで分析する時代がついに来たぞ!
  • SnowflakeでAWS S3 Express One Zoneを使うとどれだけ速いのか

    SnowflakeでAWS S3 Express One Zoneを組み合わせて、パフォーマンスと互換性を検証したので結果を共有する。 互換性テストが通らなくても、一部の機能は使用できるようだ。 結論 読み取り系のワークロードでは、最大16%ほどのクエリパフォーマンスの改善が見られた。 ただし、現時点では、スタンダードなS3バケットからExpress One Zoneへ移行する必要はない。 現時点では移行するメリットをデメリットが上回る。 まず、書き込み系の操作はエラーで実行できない。 また、LISTなどバケット全体のスキャンを行うクエリでは、最大20倍も遅くなった。 全体的にSnowflakeの内部のコードがExpress One Zoneを想定していないようでエラーが頻発した。 未サポートなので当然だが日常的な使用は厳しい。 SnowflakeでExpress One Zoneを活用し

    SnowflakeでAWS S3 Express One Zoneを使うとどれだけ速いのか
  • SnowflakeとAWS S3 Express One Zoneの相性が気になった

    Express One ZoneとSnowflakeの相性が気になった 昨年12月にAWS Express One Zoneが発表された。 新しい Amazon S3 Express One Zone ストレージクラスは、S3 標準ストレージクラスの最大 10 倍のパフォーマンスを実現しながら、一貫した 1 桁ミリ秒のレイテンシーで毎秒数十万のリクエストを処理できるように設計されています。 当ならSnowflakeの外部ステージに使えば爆速外部テーブルができるのでは。 [1/13追記] 使えそう テストケースが通らなくても一部機能は使えるようだ。 以下の記事で検証した。 [1/12]現時点ではSnowflakeの外部ステージでは使えなさそう テストケースが通らない。 [ERROR] Errors: [ERROR] S3CompatApiTest.copyObject:360->uploa

    SnowflakeとAWS S3 Express One Zoneの相性が気になった
  • Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた

    記事の背景 記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。 会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。 中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas

    Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
    masutaka26
    masutaka26 2023/10/17
    アカウントレベル、データベースレベルのオブジェクト、スキーマそのものは Terraform を、スキーマ内のリソースは schemachange を、SQL によるデータ変換は dbt を採用
  • Snowflake と Tableau を使った BI によるデータ分析基盤のデプロイを継続的に改善した

    記事は、Snowflake Advent Calendar 2021 の12日目です。 記事の概要 2020年の6月に、当時、データ分析基盤が一才なかった現在所属企業(在シンガポール)に初のデータエンジニアとして入社し、データ分析基盤をスクラッチで構築することになりました。まずは BI とアドホック分析をやりたいとなり、データサイエンティストと二人三脚で小規模な BI システムを構築し、デプロイ周りも改善し、最終的にはデータウェアハウスとして Snowflake も導入しました。 記事では、筆者の知識や経験の棚卸しと整理を目的に比較的小規模に始まったデータ分析基盤の特にデプロイ周りをどう改善したか紹介します。 なお、現在は、大手金融企業と合併し、先方のオンプレ環境の大規模な BI システム(利用者数百名)のマイグレをやっていますが、それはまた別の機会にノウハウを紹介しようと思います。

    Snowflake と Tableau を使った BI によるデータ分析基盤のデプロイを継続的に改善した
  • 1