[B! Snowflake] shunmatsuのブックマーク

データ基盤へのdbtとCI/CDの導入を内定者がやってみた！ | | AI tech studio

AI事業本部アプリ運用センターでデータサイエンティストをしている河中と申します。今回は内定者としてアルバイトに参加している23卒内定者の稲葉さんに、信頼性が高く分析しやすいデータ基盤を構築するためにdbtというツールを導入するタスクに取り組んでもらいました。その中での技術的な話や内定者バイトを通して学んだことをブログにまとめてくれました。ぜひ一読ください！ 23卒エンジニア職内定者の稲葉です。2022年10月から3ヶ月間、AI事業本部小売DXディビジョンのアプリ運用センターでアルバイトをさせていただきました。私は、今までデータサイエンティストやバックエンドエンジニアなど幅広く技術に関わってきましたが、今回はアナリティクスエンジニアとしてデータ基盤の改修を行いました。本稿では、Snowflake上で構築されているデータ分析基盤を dbtやgithub actionsのCI/CDを用い

shunmatsu 2023/03/15

リンク

Snowflakeの3種類のTIMESTAMPの違いをまとめてみた #SnowflakeDB | DevelopersIO

さがらです。 SnowflakeではTIMESTAMPに関して３種類の型があります。その３種の違いを本記事でまとめてみます。 Snowflakeにおける３種類のTIMESTAMP Snowflakeでは、以下３種類のTIMESTAMPがあります。 TIMESTAMP_LTZ TIMESTAMP_NTZ TIMESTAMP_TZ それぞれの説明は公式Docにも載っていますが、パッと見ただけでは違いがわからないと思います。（私も最初はわかりませんでした。笑）そこで、次章から公式Docのサンプルコードに沿って、それぞれの違いをまとめていきます。 TIMESTAMP_LTZ まず１つ目、TIMESTAMP_LTZについてです。簡単に言うと、timezoneセッションパラメーターの値に応じて、タイムゾーンが動的に変化するTIMESTAMPです。まず下記のコードを実行して、timezoneパラメ

shunmatsu 2022/02/08

リンク

AWS Glue DataBrewでSnowflakeのテーブルデータをプロファイリングしてみる | DevelopersIO

こんにちは！DA(データアナリティクス)事業本部インテグレーション部の大高です。先日、AWS BlogにてAWS Glue DataBrewを利用してSnowflakeのデータを加工して、再度Snowflakeへ戻すソリューションが紹介されていました。とても興味深く、そもそも私がGlue DataBrewでSnowflakeに接続したことがなかったので、まずは今回はコネクションの作成からテーブルデータのプロファイリングまでを試してみました。前提条件 Snowflakeのアカウントに利用可能な、ユーザ、データベース、ウェアハウスが用意されていることを前提としています。また、今回利用する環境は、Private Linkは無効の環境です。「接続」の作成まずはGlue DataBrewの「データセット」メニューから「接続」を作成していきます。今回は「データセット」の作成画面から作業をす

shunmatsu 2021/04/03

リンク

Apache SupersetでSnowflakeに接続してみた | DevelopersIO

こんにちは！DA(データアナリティクス)事業本部インテグレーション部の大高です。先日「Apache Superset」のセットアップを試したのですが、Supersetではデータの接続元として各種データベースがサポートされています。今回はこの中でも、Snowflakeへの接続を試したいと思います。なお、先日セットアップを試した際のエントリはこちらとなります。前提環境は以下で試しています。 OS macOS Catalina Docker Desktop 2.3.0.3 セットアップ Snowflakeに接続するべく、改めてセットアップの見直しを行います。セットアップ時に、各種データベースへ接続するためのドライバインストールを実施したいと思いますので、以下のように設定し直してみました。ディレクトリ構成ディレクトリ構成としては、今回は以下のようにしました。 superset ┣

shunmatsu 2021/02/21

Snowflake

リンク

Snowflakeの地図データをSupersetで地図に表示させてみた | DevelopersIO

こんにちは！DA(データアナリティクス)事業本部インテグレーション部の大高です。先日「Apache Superset」の設定を見直し、地図表示がきちんとできるようになりました。調べてみると、Apache Supersetでは、地図データはWKTがレコードにあれば表示できるような記述を見かけたので、Snowflakeに地図データを登録して地図表示を試してみたいと思います。前提環境は以下で試しています。 OS macOS Catalina Docker Desktop 2.3.0.3 また、下記エントリのようにして、一通りのSupersetのセットアップは実施済みとなっており、Snowflakeへの接続や、基本的な地図表示もできる状態となっています。地図表示用のデータをロードするでは、まずは地図表示用のデータをSnowflakeへ登録したいと思います。なにか良いものがないかと探

shunmatsu 2021/02/21

Snowflake

リンク

SnowflakeのDATA CLOUDでデータのサイロ化を解消しデータドリブンを加速する

2020年12月8日、企業のデータ活用の現状、そしてこれからの姿を明らかにする翔泳社のカンファレンスイベント「data tech 2020」がオンライン開催された。今回のテーマは「データドリブン・アップデート真のデータドリブン経営の姿」。データ活用基盤およびデータマネージメントカテゴリーのセッションでは、クラウドデータ活用プラットフォームの提供で大きく注目されているSnowflakeが、「DATA CLOUD：Snowflakeが目指すデータコラボレーションプラットフォーム」と題し講演を行った。自社のデータをSnowflakeに格納することでデータドリブン経営につながるデータ活用ができるようになること、そして他組織ともデータ連携が実現できる画期的なアーキテクチャ「DATA CLOUD」について、その価値と事例について紹介した。データは世界を映す鏡だが、データがばらばらだと上手く写せない

shunmatsu 2021/01/19

Snowflake

リンク

広告配信プロダクトのDWHにSnowflakeを採用しました | CyberAgent Developers Blog

広告配信プロダクトのDWHにSnowflakeを採用しましたこの記事は CyberAgent Developers Advent Calendar 2020 1日目と Snowflake Advent Calendar 2020 1日目の記事です。 AI事業本部 Dynalystで開発責任者をしている黒崎( @kuro_m88 )です。 CyberAgent Developers Advent Calendarは入社以来書き続けて6年目になりました。今年は弊社公式で開催されなかったため、有志で立ち上げてみました。今年はSnowflakeというクラウドデータプラットフォームを自プロダクトで採用した話をさせていただこうと思います。 Snowflakeとは？クラウド上で構築されているSaaSのデータプラットフォームです。大量のデータを取り込んだり、保管したり、それらのデータを加工したり

shunmatsu 2020/12/02

Snowflake

リンク

[登壇しました] DXに最適な分析ソリューション – Looker: BEACON Japan 2020 #BeaconJapan | DevelopersIO

Looker社によるロードマップ、顧客事例、パートナー企業によるセッションが堪能出来るデジタルイベント『BEACON Japan 2020』が2020年09月03日から2020年09月24日までの毎週木曜日、計4日間に渡り開催されています。そして、私（大阪オフィスの所属だが現在は奈良県でリモートワーク中の玉井）が、Snowflake社と共同で登壇致しました。当エントリでは、私が登壇したセッションである、「DXに最適なソリューション」のレポートをお届けします。セッション概要公式ページで紹介されているセッションの概要情報は以下の通りです。 DXに最適なソリューション登壇者：・松下正之氏, Senior Sales Engineer, Snowflake株式会社・玉井励氏, アナリティクスコンサルタント, クラスメソッド株式会社発表内容： Lookerのパートナーであるク

shunmatsu 2020/10/01

リンク

[Snowflake][Looker]東京都のCOVID19情報をcsvから自分で可視化してみた。 | DevelopersIO

こんにちは、平野です。先日Lookerを初めて触ってみて、可視化の流れがとりあえずわかったという感じがします。初めてのBIツール。Lookerのマッププロット記事をトレースしつつ、流れをまとめてみた。ということで、忘れないうちに別の可視化もやってみます。 Lookerでデータを可視化するための大枠の流れなどは上記の記事でご紹介していますので、この記事で特に説明していない部分などは、お手数ですがそちらの記事をご参照ください。題材として、最近は否応なしに目にする、東京都の新型コロナウイルス感染症（COVID19）陽性患者数のデータを使ってみます。なお、COVID19のデータを扱う記事は以下のようなものもありますので、興味があれば併せてご参照ください。 AWSでコロナウィルス（COVID-19）のデータレイクが公開されたので試してみた LookerでCOVID-19関連のデータを可視

shunmatsu 2020/07/01

リンク

ウェビナー「Lookerはじめの一歩」で登壇しました | DevelopersIO

奈良県でリモートワークしてる玉井です。 5月15日（金）のお昼時に、弊社が開催した下記ウェビナーで登壇しました。本記事では、ウェビナーの資料の共有、それと、ウェビナー中にあったQ&Aの補足等についてご紹介します。資料登壇内容に関する各種リンクなど顧客環境へのセルフインストール Amazon Redshiftの管理 Lookerから直接EC2を停止 Amazon SageMakerとの連携 Snowflake内の半構造化データにLookerから直接アクセス SnowflakeのデータシェアリングのデータにLookerから直接アクセス紹介したTableau PublicのViz https://public.tableau.com/views/BrianDennehy/Dashboard1?:display_count=y&:origin=viz_share_link Brian D

shunmatsu 2020/05/16

リンク

Snowflake マイクロパーティションとデータクラスタリングの解説 | Snowflake Advent Calendar 2019 #SnowflakeDB | DevelopersIO

Snowflakeの速さの秘訣はプルーニングであり、効果的にプルーニングするにはデータクラスタリングが必要です。クラスタ化したデータを効率的に扱えるデータファイルがマイクロパーティションとなります。今日はSnoflakeの基礎の基礎、マイクロパーティションとデータクラスタリングの解説します。 Snowflake Advent Calendar 2019 - Qiita Snowflake Advent Calendar 2019 ｜シリーズ｜ DevelopersIO マイクロパーティションマイクロパーティションとはマイクロパーティションは、Snowflakeのテーブルのデータを格納するファイルです。例えば、Stageに配置したデータファイルはCOPYコマンドでロードすると自動的に取り込み順序に基づいて連続したマイクロパーティションに保存されます。マイクロパーティションは、イミュー

shunmatsu 2020/02/01

リンク

Snowflake SQLパフォーマンスチューニング 7 Tips #SnowflakeDB | DevelopersIO

SnowflakeのSQLは、ANSI準拠のSQLであり、実際に使った印象も標準的なSQLです。本日は、Snowflakeをフルに活用するためのSQLパフォーマンスチューニングについて解説します。まずはクエリ実行の流れを理解する Snowflakeのクエリ実行の流れは「レコード操作 > グループ操作 > 結果出力」となります。そのため可能な限り最初の段階でスキャンのサイズ、結合対象のレコード数を減らした後、グループ操作をすることが最も重要です。レコード操作は、グループ操作の前に実行されます。FROM句に指定したテーブルをWHERE句でフィルタした後、GROUP BY句やHAVING句で集約、最終的にSELECT句、DISTINCT句、ORDER BY句、LIMIT句にて結果出力します。クエリ実行の順は以下のとおりです。この考えに基づき後述のTipsを紹介します。 Tips1: スキャ

shunmatsu 2020/02/01

リンク

[レポート]マルチクラウドなSaaS型データウェアハウス「Snowflake」が日本にやってくるぞ！ Developers.IO TOKYO 2019 #cmdevio | DevelopersIO

こんにちは、DA部の兼本です。 2019年11月1日（金）に東京日本橋で開催された弊社主催イベント「Developers.IO 2019 TOKYO」において、スポンサーセッションにご登壇いただきましたSnowflake株式会社東條様のセッションをレポートします。はじめに皆さんは「Snowflake」をご存じでしょうか？2012年にシリコンバレーで3名のエンジニアが設立したクラウドベースのデータウェアハウス（DWH）サービスで、すでに海外では2600社を超える顧客が利用しています。もちろん、グローバルサービスなので日本国内から利用することもできますが、国内のサポート体制やデータの保存先が海外のクラウドとなることから、まだ本格的な利用には至っていない方もいらっしゃるのではないでしょうか。なんと、そんなSnowflakeが遂に日本上陸します！セッションタイトル Snowflake日

shunmatsu 2019/11/09

snowflake

リンク

BigData-JAWS 勉強会#11「Snowflake、Cloudera&EMR比較、re:Invent 2017まとめ」参加レポート #bdjaws | DevelopersIO

はじめにこんにちは、yokatsukiです。ビッグデータをテーマに扱うJAWS-UGの支部、"BigData-JAWS"の第11回目の勉強会が2018年2月6日、目黒にあるアマゾンウェブサービスジャパンのセミナールームで開催されました。 BigData-JAWS 勉強会#11 こちらの参加レポートをお伝えします。 ※発表スライドは後日BigData-JAWSのGitHubに公開される予定です。 1.オープニング・支部の説明 (10分）発表者：株式会社リクルートテクノロジーズ　データテクノロジーラボ部　北沢匠さん BigData JAWS勉強会とは NTTドコモさん、AWSさんにご協力いただき、1〜2ヶ月おきに実施している勉強会参加条件は、「AWSを使ってビッグデータ処理をしている人、しようとしている人」 AWS上のシステムでなくてもO.K. メインは別でもデータはS3にある、と