最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。
スノーフレイク (SNOW) の技術的な企業分析 Snowflakeは、クラウド時代に焦点を合わせた、エンタープライズ利用に好ましいデータウェアハウス。今後もRedshiftなどの競合ともに市場を分け合うことになるだろう。 Snowflake(SNOW)は、2012年に設立されたクラウドベースのデータウェアハウス企業である。カリフォルニア州サンマテオに拠点を置く、同社は9月下旬にニューヨーク証券取引所に上場し、米国での株式公開で過去最大のソフトウェア企業となった。 当初、株式の価格は75ドルから85ドルの間と予想されていたが、同社は120ドルで上場し、取引初日には300ドルにまで急上昇した。これは別の記録を更新した。スノーフレークは、上場初日に株式価値が2倍になった史上最大の企業となり、時価総額は750億ドル近くに達した。 これまで多くの企業データはオンプレミスで保存されてきた。つまり、デ
大阪オフィスの玉井です。 題名の通り、極めて先進的な(?)データレイクの構築に成功したので、当記事にて詳細をお伝え致します。 概要説明 NADL(Nakamori Akina Data Lake)とは? 日本が誇る歌姫である中森明菜氏の(ほぼ)全ての楽曲に関するデータを保存したデータレイクです。 SnowflakeはDWHのイメージが強いですが、データレイクを構築・運用する機能を備えています。今回、Snowflakeのデータレイク周りの機能を活用して、NADLを構築しました。 構築作業の流れ SpotifyのAPIから中森明菜の楽曲データを取得する 楽曲データの取得には Get Track’s Audio Analysisを使用 取得した楽曲データをGoogle Cloud Storage(GCS)にアップロードする 上記のGCS(のバケット)をSnowflakeの外部ステージとして連携す
S3上のデータをテーブルにロードする 上記で設定したステージのデータをテーブルにロードします。file_formatには(type=json)を、from句には@ステージ名を指定します。 copy into json_notify_kusa from @cm_niino_s3 file_format = (type=json); select文を発行するとJSON形式でデータが格納されていることが確認できます。 JSONを可視化用に構造化する この一連の検証で一番感動したポイントです。無事にデータをロードできたものの、JSON形式のままではTableauでの可視化ができません。データ加工ツールに接続したり整形のためのプログラムを書いたりしなくても、クエリを書くだけでJSON形式のデータを集計に必要な項目のみ抜き出して簡単に構造化することができるんです。そう、Snowflakeならね。 一例
DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowf
REVISIOのエンジニア片岡です。 先日2月14日、Snowflakeの大規模イベントSNOWDAY JAPANに参加・登壇してきました。 登壇資料はこちら。 speakerdeck.com ANAインターコンチネンタルホテル東京+オンラインでの開催でしたが、オフラインイベントの独特の雰囲気と盛り上がりを久しぶりに体感できて非常に楽しかったです。 沢山の興味深いセッションや趣向を凝らした会場設営、コミュニティイベント含めてSnowflakeの世界観が感じられたイベントでした。 さて、タイトルにあるようにSNOWDAYでは時間の都合で紹介しきれなかった部分があったので、ここに書いておこうと思います。 RedshiftとSnowflakeは別の製品なので、当然違いは沢山あります。 ただ、Redshiftを色々なシーンで使用している状況から移行しようとするのであれば、ある程度同じ挙動をして欲し
広告配信プロダクトのDWHにSnowflakeを採用しました この記事は CyberAgent Developers Advent Calendar 2020 1日目 と Snowflake Advent Calendar 2020 1日目 の記事です。 AI事業本部 Dynalystで開発責任者をしている黒崎( @kuro_m88 )です。 CyberAgent Developers Advent Calendarは入社以来書き続けて6年目になりました。今年は弊社公式で開催されなかったため、有志で立ち上げてみました。 今年はSnowflakeというクラウドデータプラットフォームを自プロダクトで採用した話をさせていただこうと思います。 Snowflakeとは? クラウド上で構築されているSaaSのデータプラットフォームです。大量のデータを取り込んだり、保管したり、それらのデータを加工したり
こんにちは。AI事業本部の AIR TRACK でサーバーサイドエンジニアをしている宮川です。プロダクトでデータウェアハウスを Redshift から Snowflake に乗り換えたので、意思決定をした理由や Snowflake のメリット・デメリットについてご紹介したいと思います。 Snowflake とは Snowflake とは Snowflake 社が提供するデータウェアハウス(DWH)です。 コンピュートノードとストレージを分離した設計がなされており、計算リソース(ウェアハウス)を簡単にスケールアップ・スケールアウトできること、ウェアハウスの利用分の従量課金であること*1が特徴となっています。また、各クラウドプロバイダー上でサービスを展開しているため、Snowflake にデータを入れる際に無駄なデータ転送量がかからないことも特徴です。 その他、SnowPipe という自動デー
Building An Elastic Query Engine on Disaggregated Storage 突然始まった、論文紹介シリーズである。 データベースに関連する目に付いた論文をざっくりと解説していく。個人的な興味は分散DB、トランザクション、ストレージエンジン等なので、その辺りに偏ることはご容赦頂きたい。 初回は「Building An Elastic Query Engine on Disaggregated Storage」(日本語訳:分散ストレージ上での弾力性の高いクエリエンジンの構築)、Snowflakeのアーキテクチャを解説した論文を読んでいく。 ※早速お詫びとなるが、Zennのタイトルで文字数制限があり、正式な論文名を当記事に冠することが出来ない。誤解を招くタイトルだったら申し訳ない。 と思ったら こちらに論文の翻訳が発表されていた。英語は苦手だが全文読んで理
この記事はABEJA Advent Calender20日目、及びSnowflake Advent Calender23日目の記事になります。 はじめに 各々の技術について大雑把に紹介 Snowflake Snowpark Airbyte 環境構築 Airbyte Google Analytics Google Search Console Snowflake Connection Snowpark 今回の処理 結局Snowparkが使えると何がいいか 最後に はじめに こんにちは@Takayoshi_maです。今日はGoogle Analytics(UA) → Airbyte → Snowflake (Snowpark for Python)という流れでデータの抽出、加工を行います。 各々の技術について大雑把に紹介 Snowflake Snowflake社(ティッカーコード: SNOW)
こんにちは。大場です。 Snowflake では、これから触れる方向けに Getting Started Videos が用意されています。 Architecture & Key Concepts Introduction to Snowflake Introduction to Virtual Warehouses Introduction to Worksheets & Queries Introduction to Data Loading この記事では、ひとつめの「Architecture & Key Concepts」の動画に沿って、その名のとおりアーキテクチャーとキーコンセプトをまとめて紹介したいと思います。 Snowflake とは Snowflake は AWS や Azure などの代表的なクラウドサービス上で動く Data Warehouse as a Service
1社目のData Domainは数千億円規模でイグジット。2社目のServiceNowは10兆円の評価。そして今、CEOを務めるSnowflakeが圧倒的な成長率を実現──Frank SlootmanさんがCEOとして参画する事業は、いずれも「異次元」と呼べる成長を見せています。彼は、シリコンバレーにおけるプロ経営者の筆頭候補、と言っても過言ではないでしょう。 Frankさんは現在、Snowflakeの会長と最高経営責任者(CEO)を兼務しています。これまでもエンタープライズソフトウェア業界で25年以上にわたって、起業家やエグゼクティブとして活躍してきました。 2022年11月17日に開催した「ALL STAR SAAS CONFERENCE 2022」に、Frankさんが登壇。ALL STAR SAAS FUNDのマネージングパートナーである前田ヒロが、その経営スタイルを直接インタビュー
Snowflakeのクラウド型DWHの仕組み 『Building an elastic query engine on disaggregated storage』(Vuppalapati et al. 2020)は、クラウドベースのデータウェアハウス「Snowflake」の背後にある設計上の決定事項について説明している。 『Building an elastic query engine on disaggregated storage』(Vuppalapati et al. 2020)は、クラウドベースのデータウェアハウス「Snowflake」の背後にある設計上の決定事項について説明している。この論文では、Snowflakeの設計と実装を、クラウドインフラストラクチャの最近の変化(新しいハードウェア、きめ細かな課金など)が、Snowflakeシステムの設計と最適化を導いた多くの前提条件
大阪オフィスの玉井です。 Snowflake社の下記のウェビナーを受講したので、レポートします。 ウェビナー情報 公式情報 概要 From insurance and banking to utilities, gaming to travel, Data Vault is gaining popularity across all industries as a methodology that claims to be the most agile and future-proof for connecting all of your data. Whether you work with complex data models or a plethora of data sources, achieving the potential of your data despite mak
はじめに はじめまして。 クラシル開発部でデータエンジニアをしておりますharry(@gappy50)です。 この記事は dely Advent Calendar 2021 および Snowflake Advent Calendar 2021の9日目の記事です。 昨日はうっくんさんからのNotionでJiraを作ろう!というとても興味津々話でした!! やっぱりNotionは色々できるのでいいですね◎ それと私のお話で恐縮ですが、昨日はSnowflakeのイベントSnowdayにてクラシルでのSnowflakeを活用したニアリアルタイム分析の事例についてお話をさせていただきました。 www.snowflake.com 今回はSnowdayでお話した内容のデータエンジニア寄りな詳細と、どのようにSnowflake*1を活用しているかを紹介させていただきたいと思います! 最近のクラシルデータ基盤
クラウドデータプラットフォームを提供するSnowflake(スノーフレイク)は2020年11月25日、国内報道陣を対象にしたメディアラウンドテーブルを開催し、日本市場における戦略を明らかにした。 同社 最高売上責任者のクリス・デグナン氏は、「日本では2019年9月から事業を展開してきたが、この1年間で30社を超える顧客に導入していただいた。今後も日本企業がオンプレミスからクラウドへと移行するトランスフォーメーションを我々のデータクラウドで支援していきたい」と語り、日本市場へのコミットをより深めていく姿勢を強調した。 Snowflakeがクラウドで提供するデータ分析基盤。リリース当初はクラウドネイティブなデータウェアハウスサービスだったが、現在はサービスの適用範囲を拡大し「データクラウド」を名乗る 急成長の理由は“DWHにおけるクラウドネイティブなスケーラビリティ” Snowflakeは20
大阪オフィスの玉井です。 日本時間の2021年6月9日~10日に、Snowflake Summit 2021が開催されました。 当記事では、Simplifying DevOps for Data Applications(データアプリケーションのためのDevOpsの簡略化)というセッションのレポートをお届けします。 概要 Building, deploying, and maintaining data-intensive applications has its own set of unique challenges. It’s important to ensure app developers are equipped with the right tools to rapidly and reliably deliver applications. This session wi
こんにちは、DA部の兼本です。 2019年11月1日(金)に東京日本橋で開催された弊社主催イベント「Developers.IO 2019 TOKYO」において、スポンサーセッションにご登壇いただきましたSnowflake株式会社 東條様のセッションをレポートします。 はじめに 皆さんは「Snowflake」をご存じでしょうか?2012年にシリコンバレーで3名のエンジニアが設立したクラウドベースのデータウェアハウス(DWH)サービスで、すでに海外では2600社を超える顧客が利用しています。 もちろん、グローバルサービスなので日本国内から利用することもできますが、国内のサポート体制やデータの保存先が海外のクラウドとなることから、まだ本格的な利用には至っていない方もいらっしゃるのではないでしょうか。 なんと、そんなSnowflakeが遂に日本上陸します! セッションタイトル Snowflake日
5年ほど前、Big DataとAnalyticsを取り巻く多くの誇大広告がありました。 今日、この業界はそうした誇大広告に応える形で、ビジネスを推進するための動力として変貌を遂げています。これまで長年にわたって、毎秒生成される膨大な量のデータが指数関数的に増加してきました。これにより、分析業務を行う上で非常に効率的なエンタープライズクラウドデータウェアハウステクノロジーが出現しました。 データウェアハウスは、データを効率的に活用し、深いインサイトを得るために非常に重要な役割を果たしています。では、どのデータウェアハウスが我々のビジネスに最適なのでしょうか?考慮すべき3つのデータウェアハウスの巨人としては、Amazon Redshift、Google BigQuery、Snowflakeが挙げられます。 Integrate.ioのブログでは、これまでにAmazon RedshiftとGoog
連載で取り上げる企業と着目点 本連載で、主に対象とするスタートアップは、ある程度米国でのビジネスの地歩が固まり、日本を含む海外展開を視野に入れ始めたステージを想定している。単なる企業やソリューションの紹介にとどまらず、それらが注目されるに至った背景――米国でのビジネストレンドの変遷や技術的進歩――もあわせてお伝えすることで、読者の皆さんのビジネスにおけるヒントになれば幸いだ。 Snowflake――クラウドネイティブ・データウェアハウスの衝撃 「シリコンバレー直送便」第4回で取り上げる企業は、シリコンバレー(San Mateo)に本社を構えるクラウドネイティブ・データベースを開発するSnowflakeである。 Snowflake オフィシャルサイト 今回は、同社のVP of Sales Engineering for Global Expansionを務めるSteve Herskovitz
こんにちは!DA(データアナリティクス)事業本部 インテグレーション部の大高です。 本日Snowflakeの認定資格「SnowPro Core」に無事合格することができました!せっかくなので合格するまでの道のりを書きたいと思います。 SnowPro Coreとは? 「SnowPro Core」はSnowflake社による認定資格のうち、一番ベーシックとなる認定資格です。上位資格に「SnowPro Advanced」がありますが、こちらは2020/02/17現在、まだ準備中のようです。 SnowPro Certifications 試験は100問の選択式(単一選択 or 複数選択)となっており、Webassessorによるオンライン試験となります。言語は英語となり、試験時間と合格ラインは2時間で80%以上となります。 一方で、日本向けの特別条件として2020/02/17現在では2時間半で70
Snowflakeでは、標準のユーザー名/パスワードでの認証に加えて、SAML認証を使用したシングルサインオン(SSO)を設定することが可能です。SAMLのIdentity provider (IdP)としてSnowflakeがネイティブにサポートしているのはOktaとADFSの2つですが、これ以外でもSAML2.0に対応したサービスであればSAML IdPとして利用可能です。 今回は、SAML IdPにAuth0を利用してSnowflakeでSSOを設定する方法をご紹介します。 目次 前提条件 Auth0側の設定 アプリケーションの作成 SAMLアドオンの設定 Auth0の証明書とログインURL(SAMLリクエストの送信先URL)の確認 ユーザー作成 Snowflake側の設定 ユーザー作成 SSOの設定 SSOのテスト SSOの有効化 まとめ 参考 SAMLアドオンの設定 Snowfl
AI事業本部 アプリ運用センターでデータサイエンティストをしている河中と申します。 今回は内定者としてアルバイトに参加している23卒内定者の稲葉さんに、信頼性が高く分析しやすいデータ基盤を構築するためにdbtというツールを導入するタスクに取り組んでもらいました。その中での技術的な話や内定者バイトを通して学んだことをブログにまとめてくれました。 ぜひ一読ください! 23卒エンジニア職内定者の稲葉です。2022年10月から3ヶ月間、AI事業本部小売DXディビジョンのアプリ運用センターでアルバイトをさせていただきました。私は、今までデータサイエンティストやバックエンドエンジニアなど幅広く技術に関わってきましたが、今回はアナリティクスエンジニアとしてデータ基盤の改修を行いました。 本稿では、Snowflake上で構築されているデータ分析基盤を dbtやgithub actionsのCI/CDを用い
(画像は Snowflake 公式 Web サイトのものを流用) 概要 データエンジニアとして働いていると RDB 上での変更をリアルタイムで近い形でデータウェアハウスに転送し、即座にデータ分析に利用できるようにしたいというニーズについて相談を受ける機会があります。 筆者は、RDB からデータウェアハウスの間のリアルタイムデータパイプライン部分を OSS 中心とクラウドサービス中心の 2 つの構成で構築した経験があります。その際の経験を踏まえて、両者の簡単な比較について紹介します。 (前職)OSS 中心のデータパイプライン RDB・・・AWS RDS Aurora (PostgreSQL) BigQuery データパイプライン・・・Kafka、Debezium コンテナオーケストレーション・・・データパイプラインを AWS EKS 上 k8s クラスタにデプロイ (現職)クラウドサービス中
この記事はSnowflakeアドベントカレンダーとちゅらデータアドベントカレンダーの8日目の記事でっす。 Lambda 好きですか? Lambda 好きっすよね? サーバレスですし、最近じゃコンテナサポートされたり、メモリが10Gまで使えるようになったり、もはやサーバレスにこれまでみんなが抱いていた、イメージってだいぶ払拭されたんじゃないかしら? 参考1:コンテナの話 https://aws.amazon.com/jp/blogs/news/new-for-aws-lambda-container-image-support/ 参考2:10Gの話 https://aws.amazon.com/jp/blogs/aws/new-for-aws-lambda-functions-with-up-to-10-gb-of-memory-and-6-vcpus/ そんな Lambda から Snow
はじめに SnowflakeはクラウドをベースとしたSaaS型のデータプラットフォームです。主要なクラウド(AWS/GCP/Azure)に対応しており、企業/組織内の至る所に転がっているデータも「クラウド×Snowflake」で連携できるため、アジリティやスケーラビリティが求められるデータプラットフォームとして大きな強みがあります。 そんな注目を浴びているSnowflakeですが、これまたIaCとして人気のあるTerraformで構築できます。Snowflakeは大量のオブジェクトを組み合わせて管理するため、長くお世話になるならTerraformの利用をぜひとも考えたいところです。 本稿では、Terraform×Snowflakeを検討していく上で自分が感じた検討ポイントや悩みどころを脳内整理を兼ねて記載します。本内容がこれから検討する方の参考になれば幸いです。 SnowflakeとTer
SnowflakeのSQLは、ANSI準拠のSQLであり、実際に使った印象も標準的なSQLです。本日は、Snowflakeをフルに活用するためのSQLパフォーマンスチューニングについて解説します。 まずはクエリ実行の流れを理解する Snowflakeのクエリ実行の流れは「レコード操作 > グループ操作 > 結果出力」となります。そのため可能な限り最初の段階でスキャンのサイズ、結合対象のレコード数を減らした後、グループ操作をすることが最も重要です。 レコード操作は、グループ操作の前に実行されます。FROM句に指定したテーブルをWHERE句でフィルタした後、GROUP BY句やHAVING句で集約、最終的にSELECT句、DISTINCT句、ORDER BY句、LIMIT句にて結果出力します。クエリ実行の順は以下のとおりです。 この考えに基づき後述のTipsを紹介します。 Tips1: スキャ
ビジネスのニーズや目的に適したデータウェアハウスを選定することは、ビッグデータ戦略の重要な要素です。残念なことに、あまりにも多くの企業が、自社に最適なデータウェアハウスをどのように選択すれば良いかという問題に悩んでいます。 大方の予測では、データウェアハウスのプロジェクトの60~70%は失敗するとされています。。その理由は、コストや時間の見積もりが悪かったり、組織内の賛同が得られなかったり、最初から間違ったテクノロジーを選択していたりと、さまざまな理由があります。 しかし、データウェアハウス・プロジェクトが成功すれば、強力なROIを実現し、より鋭いデータドリブンなインサイトを提供することでビジネスを変革することができます。 Snowflake、Google BigQuery、Amazon Redshiftは、成熟した堅牢なクラウドベースのデータウェアハウスの巨人であり、何千もの顧客に利用さ
以下の文章は、電子フロンティア財団の「Snowflake Makes It Easy For Anyone to Fight Censorship」という記事を翻訳したものである。 Electronic Frontier Foundation オニオンルータのTorは、いまでも最も強力な検閲回避技術の1つである。日々、数百万の人々がTorネットワークを利用し、監視や検閲に怯えることなくインターネットにアクセスしている。 たいていはTor Browserをダウンロードし、リレーに接続することでTorネットワークに参加できる。だが、Torネットワークへの直接アクセスを遮断しているイランやロシアなどの国ではそうはいかない。その場合、国家ファイアウォールを回避するために、いわゆる「Torブリッジ(Tor Bridges)」を使わなければならない。数万の人々が検閲や国・地域の制限を回避するために定期
Snowflakeの世界に存在する各種要素の関係性やそれらの権限に関する情報は下記公式ドキュメント等で説明・解説されています。 アクセス制御権限 — Snowflake Documentation アクセス制御の概要 — Snowflake Documentation ですが、一読しただけではそれら全てを把握・理解するのはちょっと一苦労な感じでした(個人的には)。 やっぱり実際に手を動かして理解するのが一番だろう、ということで当エントリでは一番シンプルであろう『関連する要素を全て新規作成する』というケースを想定し、それらを順を追ってSnowflakeのコマンドラインツール『Snowsql』で作成しておく事で要素の作成方法や要素間の関係性を理解していく流れを、実践内容を踏まえて説明していきたいと思います。 目次 想定するケース Snowsqlのインストール 実施手順 (1).Snowflak
こんにちは。インテージテクノスフィア技術ブログ担当アイダです。今回の投稿は冬にふさわしい投稿です。リサーチテクノロジー本部のKさんは現在インテージの基幹システム担当なのですが、今回導入するDWH「Snowflake」について投稿いただきました。snowflake推しの熱い投稿をどうぞ! 「Snowflake」って? 普通のDWHと何が違うの? アーキテクチャ 3.ストレージレイヤー 2.コンピュートレイヤー ローカルキャッシュ スケールアップ/ダウン・スケールアウト/イン 自動レジューム/サスペンド 1つのDBに対し複数VWからアクセス 1.クラウドサービスレイヤー ワタシのお気に入り機能トップ5! 第5位 Caching 第4位 Zero Management 第3位 クエリプロファイル 第2位 Zero-Copy Cloning 第1位 Time Travel 未来はどうなる? 「Sn
米Snowflakeの日本法人が、クラウド型のデータウェアハウスサービス「Snowflake」(スノーフレイク)について、IaaS「Microsoft Azure」の東日本リージョン上で動作するバージョンの提供を始めた。 米Snowflakeの日本法人は10月14日、クラウド型のデータウェアハウスサービス「Snowflake」(スノーフレイク)について、米MicrosoftのIaaS「Microsoft Azure」の東日本リージョン上で動作するバージョンの提供を始めたと発表した。2019年に提供を始めたAWS東京リージョン対応版に続き、国内リージョンの活用は2例目。 Snowflakeはデータウェアハウスをベースとして、さまざまなデータを大量に保持できるリポジトリ「データレイク」や、同意があればユーザー企業間でデータを受け渡しできる機能などをまとめて提供するSaaS。自社のインフラに合わ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く