タグ

Snowflakeに関するshunmatsuのブックマーク (14)

  • データ基盤へのdbtとCI/CDの導入を内定者がやってみた! | | AI tech studio

    AI事業部 アプリ運用センターでデータサイエンティストをしている河中と申します。 今回は内定者としてアルバイトに参加している23卒内定者の稲葉さんに、信頼性が高く分析しやすいデータ基盤を構築するためにdbtというツールを導入するタスクに取り組んでもらいました。その中での技術的な話や内定者バイトを通して学んだことをブログにまとめてくれました。 ぜひ一読ください! 23卒エンジニア職内定者の稲葉です。2022年10月から3ヶ月間、AI事業部小売DXディビジョンのアプリ運用センターでアルバイトをさせていただきました。私は、今までデータサイエンティストやバックエンドエンジニアなど幅広く技術に関わってきましたが、今回はアナリティクスエンジニアとしてデータ基盤の改修を行いました。 稿では、Snowflake上で構築されているデータ分析基盤を dbtgithub actionsのCI/CDを用い

    データ基盤へのdbtとCI/CDの導入を内定者がやってみた! | | AI tech studio
  • Snowflakeの3種類のTIMESTAMPの違いをまとめてみた #SnowflakeDB | DevelopersIO

    さがらです。 SnowflakeではTIMESTAMPに関して3種類の型があります。その3種の違いを記事でまとめてみます。 Snowflakeにおける3種類のTIMESTAMP Snowflakeでは、以下3種類のTIMESTAMPがあります。 TIMESTAMP_LTZ TIMESTAMP_NTZ TIMESTAMP_TZ それぞれの説明は公式Docにも載っていますが、パッと見ただけでは違いがわからないと思います。(私も最初はわかりませんでした。笑) そこで、次章から公式Docのサンプルコードに沿って、それぞれの違いをまとめていきます。 TIMESTAMP_LTZ まず1つ目、TIMESTAMP_LTZについてです。 簡単に言うと、timezoneセッションパラメーターの値に応じて、タイムゾーンが動的に変化するTIMESTAMPです。 まず下記のコードを実行して、timezoneパラメ

    Snowflakeの3種類のTIMESTAMPの違いをまとめてみた #SnowflakeDB | DevelopersIO
  • AWS Glue DataBrewでSnowflakeのテーブルデータをプロファイリングしてみる | DevelopersIO

    こんにちは!DA(データアナリティクス)事業部 インテグレーション部の大高です。 先日、AWS BlogにてAWS Glue DataBrewを利用してSnowflakeのデータを加工して、再度Snowflakeへ戻すソリューションが紹介されていました。 とても興味深く、そもそも私がGlue DataBrewでSnowflakeに接続したことがなかったので、まずは今回はコネクションの作成からテーブルデータのプロファイリングまでを試してみました。 前提条件 Snowflakeのアカウントに利用可能な、ユーザ、データベース、ウェアハウスが用意されていることを前提としています。また、今回利用する環境は、Private Linkは無効の環境です。 「接続」の作成 まずはGlue DataBrewの「データセット」メニューから「接続」を作成していきます。今回は「データセット」の作成画面から作業をす

    AWS Glue DataBrewでSnowflakeのテーブルデータをプロファイリングしてみる | DevelopersIO
  • Apache SupersetでSnowflakeに接続してみた | DevelopersIO

    こんにちは!DA(データアナリティクス)事業部 インテグレーション部の大高です。 先日「Apache Superset」のセットアップを試したのですが、Supersetではデータの接続元として各種データベースがサポートされています。 今回はこの中でも、Snowflakeへの接続を試したいと思います。 なお、先日セットアップを試した際のエントリはこちらとなります。 前提 環境は以下で試しています。 OS macOS Catalina Docker Desktop 2.3.0.3 セットアップ Snowflakeに接続するべく、改めてセットアップの見直しを行います。 セットアップ時に、各種データベースへ接続するためのドライバインストールを実施したいと思いますので、以下のように設定し直してみました。 ディレクトリ構成 ディレクトリ構成としては、今回は以下のようにしました。 superset ┣

    Apache SupersetでSnowflakeに接続してみた | DevelopersIO
  • Snowflakeの地図データをSupersetで地図に表示させてみた | DevelopersIO

    こんにちは!DA(データアナリティクス)事業部 インテグレーション部の大高です。 先日「Apache Superset」の設定を見直し、地図表示がきちんとできるようになりました。 調べてみると、Apache Supersetでは、地図データはWKTがレコードにあれば表示できるような記述を見かけたので、Snowflakeに地図データを登録して地図表示を試してみたいと思います。 前提 環境は以下で試しています。 OS macOS Catalina Docker Desktop 2.3.0.3 また、下記エントリのようにして、一通りのSupersetのセットアップは実施済みとなっており、Snowflakeへの接続や、基的な地図表示もできる状態となっています。 地図表示用のデータをロードする では、まずは地図表示用のデータをSnowflakeへ登録したいと思います。 なにか良いものがないかと探

    Snowflakeの地図データをSupersetで地図に表示させてみた | DevelopersIO
  • SnowflakeのDATA CLOUDでデータのサイロ化を解消しデータドリブンを加速する

    2020年12月8日、企業のデータ活用の現状、そしてこれからの姿を明らかにする翔泳社のカンファレンスイベント「data tech 2020」がオンライン開催された。今回のテーマは「データドリブン・アップデート 真のデータドリブン経営の姿」。データ活用基盤およびデータマネージメントカテゴリーのセッションでは、クラウドデータ活用プラットフォームの提供で大きく注目されているSnowflakeが、「DATA CLOUD:Snowflakeが目指すデータコラボレーションプラットフォーム」と題し講演を行った。自社のデータをSnowflakeに格納することでデータドリブン経営につながるデータ活用ができるようになること、そして他組織ともデータ連携が実現できる画期的なアーキテクチャ「DATA CLOUD」について、その価値と事例について紹介した。 データは世界を映す鏡だが、データがばらばらだと上手く写せない

    SnowflakeのDATA CLOUDでデータのサイロ化を解消しデータドリブンを加速する
  • 広告配信プロダクトのDWHにSnowflakeを採用しました | CyberAgent Developers Blog

    広告配信プロダクトのDWHにSnowflakeを採用しました この記事は CyberAgent Developers Advent Calendar 2020 1日目 と Snowflake Advent Calendar 2020 1日目 の記事です。 AI事業部 Dynalystで開発責任者をしている黒崎( @kuro_m88 )です。 CyberAgent Developers Advent Calendarは入社以来書き続けて6年目になりました。今年は弊社公式で開催されなかったため、有志で立ち上げてみました。 今年はSnowflakeというクラウドデータプラットフォームを自プロダクトで採用した話をさせていただこうと思います。 Snowflakeとは? クラウド上で構築されているSaaSのデータプラットフォームです。大量のデータを取り込んだり、保管したり、それらのデータを加工したり

    広告配信プロダクトのDWHにSnowflakeを採用しました | CyberAgent Developers Blog
  • [登壇しました] DXに最適な分析ソリューション – Looker: BEACON Japan 2020 #BeaconJapan | DevelopersIO

    Looker社によるロードマップ、顧客事例、パートナー企業によるセッションが堪能出来るデジタルイベント『BEACON Japan 2020』が2020年09月03日から2020年09月24日までの毎週木曜日、計4日間に渡り開催されています。 そして、私(大阪オフィスの所属だが現在は奈良県でリモートワーク中の玉井)が、Snowflake社と共同で登壇致しました。 当エントリでは、私が登壇したセッションである、「DXに最適なソリューション」のレポートをお届けします。 セッション概要 公式ページで紹介されているセッションの概要情報は以下の通りです。 DXに最適なソリューション 登壇者: ・松下 正之 氏, Senior Sales Engineer, Snowflake株式会社 ・玉井 励 氏, アナリティクスコンサルタント, クラスメソッド株式会社 発表内容: Lookerのパートナーであるク

    [登壇しました] DXに最適な分析ソリューション – Looker: BEACON Japan 2020 #BeaconJapan | DevelopersIO
  • [Snowflake][Looker]東京都のCOVID19情報をcsvから自分で可視化してみた。 | DevelopersIO

    こんにちは、平野です。 先日Lookerを初めて触ってみて、可視化の流れがとりあえずわかったという感じがします。 初めてのBIツール。Lookerのマッププロット記事をトレースしつつ、流れをまとめてみた。 ということで、忘れないうちに別の可視化もやってみます。 Lookerでデータを可視化するための大枠の流れなどは上記の記事でご紹介していますので、 この記事で特に説明していない部分などは、お手数ですがそちらの記事をご参照ください。 題材として、最近は否応なしに目にする、東京都の新型コロナウイルス感染症(COVID19)陽性患者数のデータを使ってみます。 なお、COVID19のデータを扱う記事は以下のようなものもありますので、興味があれば併せてご参照ください。 AWSでコロナウィルス(COVID-19)のデータレイクが公開されたので試してみた LookerでCOVID-19関連のデータを可視

    [Snowflake][Looker]東京都のCOVID19情報をcsvから自分で可視化してみた。 | DevelopersIO
  • ウェビナー「Lookerはじめの一歩」で登壇しました | DevelopersIO

    奈良県でリモートワークしてる玉井です。 5月15日(金)のお昼時に、弊社が開催した下記ウェビナーで登壇しました。 記事では、ウェビナーの資料の共有、それと、ウェビナー中にあったQ&Aの補足等についてご紹介します。 資料 登壇内容に関する各種リンクなど 顧客環境へのセルフインストール Amazon Redshiftの管理 Lookerから直接EC2を停止 Amazon SageMakerとの連携 Snowflake内の半構造化データにLookerから直接アクセス SnowflakeのデータシェアリングのデータにLookerから直接アクセス 紹介したTableau PublicのViz https://public.tableau.com/views/BrianDennehy/Dashboard1?:display_count=y&:origin=viz_share_link Brian D

    ウェビナー「Lookerはじめの一歩」で登壇しました | DevelopersIO
  • Snowflake マイクロパーティションとデータクラスタリングの解説 | Snowflake Advent Calendar 2019 #SnowflakeDB | DevelopersIO

    Snowflakeの速さの秘訣はプルーニングであり、効果的にプルーニングするにはデータクラスタリングが必要です。クラスタ化したデータを効率的に扱えるデータファイルがマイクロパーティションとなります。今日はSnoflakeの基礎の基礎、マイクロパーティションとデータクラスタリングの解説します。 Snowflake Advent Calendar 2019 - Qiita Snowflake Advent Calendar 2019 | シリーズ | DevelopersIO マイクロパーティション マイクロパーティションとは マイクロパーティションは、Snowflakeのテーブルのデータを格納するファイルです。例えば、Stageに配置したデータファイルはCOPYコマンドでロードすると自動的に取り込み順序に基づいて連続したマイクロパーティションに保存されます。マイクロパーティションは、イミュー

    Snowflake マイクロパーティションとデータクラスタリングの解説 | Snowflake Advent Calendar 2019 #SnowflakeDB | DevelopersIO
  • Snowflake SQLパフォーマンスチューニング 7 Tips #SnowflakeDB | DevelopersIO

    SnowflakeのSQLは、ANSI準拠のSQLであり、実際に使った印象も標準的なSQLです。日は、Snowflakeをフルに活用するためのSQLパフォーマンスチューニングについて解説します。 まずはクエリ実行の流れを理解する Snowflakeのクエリ実行の流れは「レコード操作 > グループ操作 > 結果出力」となります。そのため可能な限り最初の段階でスキャンのサイズ、結合対象のレコード数を減らした後、グループ操作をすることが最も重要です。 レコード操作は、グループ操作の前に実行されます。FROM句に指定したテーブルをWHERE句でフィルタした後、GROUP BY句やHAVING句で集約、最終的にSELECT句、DISTINCT句、ORDER BY句、LIMIT句にて結果出力します。クエリ実行の順は以下のとおりです。 この考えに基づき後述のTipsを紹介します。 Tips1: スキャ

    Snowflake SQLパフォーマンスチューニング 7 Tips #SnowflakeDB | DevelopersIO
  • [レポート]マルチクラウドなSaaS型データウェアハウス「Snowflake」が日本にやってくるぞ! Developers.IO TOKYO 2019 #cmdevio | DevelopersIO

    こんにちは、DA部の兼です。 2019年11月1日(金)に東京日橋で開催された弊社主催イベント「Developers.IO 2019 TOKYO」において、スポンサーセッションにご登壇いただきましたSnowflake株式会社 東條様のセッションをレポートします。 はじめに 皆さんは「Snowflake」をご存じでしょうか?2012年にシリコンバレーで3名のエンジニアが設立したクラウドベースのデータウェアハウス(DWH)サービスで、すでに海外では2600社を超える顧客が利用しています。 もちろん、グローバルサービスなので日国内から利用することもできますが、国内のサポート体制やデータの保存先が海外のクラウドとなることから、まだ格的な利用には至っていない方もいらっしゃるのではないでしょうか。 なんと、そんなSnowflakeが遂に日上陸します! セッションタイトル Snowflake日

    [レポート]マルチクラウドなSaaS型データウェアハウス「Snowflake」が日本にやってくるぞ! Developers.IO TOKYO 2019 #cmdevio | DevelopersIO
  • BigData-JAWS 勉強会#11「Snowflake、Cloudera&EMR比較、re:Invent 2017まとめ」参加レポート #bdjaws | DevelopersIO

    はじめに こんにちは、yokatsukiです。ビッグデータをテーマに扱うJAWS-UGの支部、"BigData-JAWS"の第11回目の勉強会が2018年2月6日、目黒にあるアマゾンウェブサービスジャパンのセミナールームで開催されました。 BigData-JAWS 勉強会#11 こちらの参加レポートをお伝えします。 ※発表スライドは後日BigData-JAWSGitHubに公開される予定です。 1.オープニング・支部の説明 (10分) 発表者:株式会社リクルートテクノロジーズ  データテクノロジーラボ部  北沢 匠さん BigData JAWS勉強会とは NTTドコモさん、AWSさんにご協力いただき、1〜2ヶ月おきに実施している勉強会 参加条件は、「AWSを使ってビッグデータ処理をしている人、しようとしている人」 AWS上のシステムでなくてもO.K. メインは別でもデータはS3にある、と

    BigData-JAWS 勉強会#11「Snowflake、Cloudera&EMR比較、re:Invent 2017まとめ」参加レポート #bdjaws | DevelopersIO
  • 1