最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
結論 Taskを管理するならSnowflake Python APIを使おう Snowflake Python APIとは Snowflake公式のPythonのオブジェクト管理ライブラリ「snowflake.core」のことです(Public Beta)。Snowflake Python Connectorとは全く別物です。 Snowflake Python APIを使用すると、Pythonコードを使ってSnowflakeのリソース(Table、Warehouse、Task、Snowpark Container ServiceのCompute Poolなど)を管理することができます。 本記事では、Snowflake Python APIを使ってSnowflakeのタスクとDAG(Directed Acyclic Graph)を管理する方法を詳しく解説します。これにより、Streamlit
そうです。わずか10行しかないデータですが、 15,000列 あります。 「それデータモデリングをミスってるやん」というツッコミはあると思いますが、今回はそのあたりについてはノーコメントです。諸事情ありこのようなデータを扱うことになりました。 今回は Snowflake でもなかなか扱うことが難しい (横方向に) クソデカデータの世界 をご案内したいと思います。 クソデカテーブルを作る まずテーブルを作ります。 この時点でエラーが出てくれるならまだ良かった。。。 なんとこのクエリは問題なく実行でき、テーブルは作成できます。 作成できてしまいます。 作成できてしまったが故に、「さすが Snowflake、列数が多いテーブルも簡単に扱えるんだね!!」と高をくくってしまいます。 ちなみに PostgreSQL の場合は1テーブルあたり最大 1,600 列だそうです。まぁそれだけあれば普通は困らな
公開日 2024/03/12更新日 2024/07/25大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品として注目を集めるSnowflake。特に大規模なデータを取り扱う現場では、Snowflake導入によってどんな変化があるのでしょうか。 本記事では、前回の第一弾でご紹介したChatworkさん、delyさん、GENDAさん、スターフェスティバルさんに引き続き、第二弾として大規模データを取り扱う5社に、データ基盤の設計思想やデータチームの方針にも触れながら、Snowflake導入の背景や効果を伺いました。 株式会社Algoage事業概要株式会社Algoageは、東京大学で機械学習の研究をしていたメンバーで2018年に創業したスタートアップです。AIを活用したサ
マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。 いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。 そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。 この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C
※この投稿は米国時間 2024 年 6 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。 はじめに Mandiant は、インシデント対応業務と脅威インテリジェンス収集の過程で、データ窃盗と恐喝を目的として Snowflake の顧客データベース インスタンスを標的とする脅威キャンペーンを特定しました。Snowflake は、大量の構造化データと非構造化データの保存と分析に使用されるマルチクラウド データ ウェアハウス プラットフォームです。Mandiant は、この活動クラスタを UNC5537 として追跡しています。UNC5537 は、Snowflake の顧客環境から大量のレコードを盗んだ疑いのある、金銭目的の脅威アクターです。UNC5537 は、盗んだ顧客の認証情報を利用して Snowflake の顧客インスタンスを体系的に侵害し、サイバー犯罪フォー
執筆:Nick Biasini、協力:Kendall McKay、Guilherme Venere クラウド データ プラットフォーム Snowflake のログイン情報の流出、盗難に端を発した数々の影響と流出後の攻撃が続々とニュースになっています。 攻撃者は、情報窃取マルウェアを使用して Snowflake アカウントのログイン情報を入手しました。中には多要素認証(MFA)で保護されていないものがあり、それを使用して Snowflake の顧客アカウントに侵入し、機密情報を盗み出しました。しかし、Snowflake の本当の問題はこの点ではありません。このインシデントは、ここしばらく脅威環境で見られているはるかに大きな変化の現れであり、その焦点はアイデンティティにあります。 過去数十年の間に犯罪的脅威を取り巻く環境が崩壊し、ランサムウェアやデータ強奪が広まっている状況を Talos は目
こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。 はじめに これまでのあらすじ:運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。 とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思
クラウドベースのデータウェアハウスサービスを展開する企業のSnowflakeが、トップレベルのエンタープライズ向け大規模言語モデル(LLM)として「Snowflake Arctic」をリリースしました。Apacheライセンス バージョン2.0で提供されるオープンなモデルとなっており、無料で商用利用も可能です。 Snowflake Arctic - LLM for Enterprise AI https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/ Snowflakeの調査では、企業ユーザーはAIを使用して主にデータ支援やコード支援、検索拡張生成(RAG)を行うチャットボットを作成したい場合が多いとのこと。そこで、Snowflakeは「コーディング能力」「SQL生成能力
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 私の所属するデータ・AI戦略部は、クラウドやSaaSの活用を積極的に行っています。私自身も「業務に役立ちそうなサービス」を見つけたら上長に相談するようにしています。 今回は、「1ヶ月でSnowflakeのPoC検証から導入提案まで行った話」をお伝えしたいと思います。ちなみにこのブログの執筆時点では、Snowflakeの導入はまだ実現していません。 <書くこと> 「PoC検証の取り組み方から提案までの手法」を中心に執筆します。今後ChatGPTのような技術革新がますます活発化した時、新しいサービスの検証や提案を「より高品質」に「よりスピーディ」に行うことが必要になってくると思います。そういったニーズの参考になれば幸いです。 <書かないこと> Sno
ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま
当記事は、dbtのカレンダー | Advent Calendar 2023 - Qiita の23日目の記事です。 こんにちは、株式会社CARTA MARKETING FIRMのデータエンジニア、@pei0804です。データエンジニアリングのほか、組織運営やデータエンジニア育成にも携わっています。 本記事では、Snowflakeを中心とした当社のデータ基盤「Vision」と、その中核であるdbtの利用について深掘りします。dbtを活用することで、SQLのみでデータパイプラインを効率的に構築し、作業の効率化を図っています。 dbt導入の詳しい導入背景は以下のスライドでご覧いただけます:広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4 - Speaker Deck。 私たちのチームでは、ビジネスに直接価値を提供しているdbtモデルの開発はプロ
大阪オフィスの玉井です。 題名の通り、極めて先進的な(?)データレイクの構築に成功したので、当記事にて詳細をお伝え致します。 概要説明 NADL(Nakamori Akina Data Lake)とは? 日本が誇る歌姫である中森明菜氏の(ほぼ)全ての楽曲に関するデータを保存したデータレイクです。 SnowflakeはDWHのイメージが強いですが、データレイクを構築・運用する機能を備えています。今回、Snowflakeのデータレイク周りの機能を活用して、NADLを構築しました。 構築作業の流れ SpotifyのAPIから中森明菜の楽曲データを取得する 楽曲データの取得には Get Track’s Audio Analysisを使用 取得した楽曲データをGoogle Cloud Storage(GCS)にアップロードする 上記のGCS(のバケット)をSnowflakeの外部ステージとして連携す
前置き こんにちは。データエンジニアの山口です! Streamlitでデータ可視化アプリを作成しており、 Streamlitアプリ上に手入力した値とSnowflake内の値を結合してデータを可視化したいなと思ったので、やり方を考えてみました。 結論 Streamlitアプリ上に手入力した値をSnowflakeのテーブルにデータを挿入・更新して、 すでにSnowflakeに入っているデータと結合すればいいのではないかと言う考えに至りました。 Streamlitのform_submit_button関数が使えそうだったので、そちらを使っていきます! 機能を実装する 早速機能を実装していきます! 前準備 まずはStreamlitから更新をするテーブルを用意しておきます。 今回は従業員マスターというテーブルを以下のクエリで作成して、 このテーブルの中にINSERT文などで、いくつか適当にデータを入
Snowflakeは、2024年4月に100以上の顧客環境を襲った一連のサイバー攻撃から再び距離を置こうとした(注1)。同社は「セキュリティの責任は当社ではなく顧客にある」と述べた。 「責任は顧客にある」 サイバー攻撃被害に遭ったSnowflakeの主張 2024年8月21日(現地時間、以下同)、Snowflakeのスリダール・ラマスワミ氏(CEO)は、同年7月31日に終了する四半期に関する決算説明会で次のように述べた。 「大々的に報道されたように、この問題の原因はSnowflakeの側にはなかった。内部および外部のサイバーセキュリティ専門家による複数の調査の結果、私たちのプラットフォームが侵害されたり、侵入されたりした証拠は見つからなかった。しかし、全ての関係者が協力してサイバーセキュリティの問題に取り組む必要があることは理解している」 Snowflakeのマイケル・スカーペリ氏(最高財
S3上のデータをテーブルにロードする 上記で設定したステージのデータをテーブルにロードします。file_formatには(type=json)を、from句には@ステージ名を指定します。 copy into json_notify_kusa from @cm_niino_s3 file_format = (type=json); select文を発行するとJSON形式でデータが格納されていることが確認できます。 JSONを可視化用に構造化する この一連の検証で一番感動したポイントです。無事にデータをロードできたものの、JSON形式のままではTableauでの可視化ができません。データ加工ツールに接続したり整形のためのプログラムを書いたりしなくても、クエリを書くだけでJSON形式のデータを集計に必要な項目のみ抜き出して簡単に構造化することができるんです。そう、Snowflakeならね。 一例
Excel 365からノーコードでSalesforceやkintone、Snowflakeなど150以上のデータソースに双方向接続可能、CData Connect Cloudが新機能 CData Software Japanは、同社が提供するクラウドサービスCData Connect Cloudの新機能として、Webブラウザで利用するExcel 365からノーコードでSalesforceやkintone、Snowflake、Amazon Redshift、MySQL、PostgreSQL、SAP HANAなど150以上のデータソースに双方向で接続可能にした「CData Connect Cloud for Excel 365」を発表しました。 単にExcel 365の機能を用いてさまざまなサービスからデータを取得して分析や加工ができるだけでなく、Excel 365で書き換えたり追加したりした
import sys import json import boto3 import ast import os import snowflake.connector import pymysql from snowflake.connector import DictCursor from sqlalchemy import create_engine from sqlalchemy.sql import text from datetime import datetime def lambda_handler(event, context): # 今日の日付とSQLを実行する日時を変数で用意 today = datetime.now() updated_at_str = datetime.strftime(today, '%Y-%m-%d %H:%M:%S') ## Snowflake
こんにちは。バクラク事業部 機械学習・データ部 データグループの@civitaspoです。最近、仕事で使用するPCを新調したのですが、Nixとhome-managerを使って環境構築していたおかげで、爆速で環境移管が完了しました。MacOSのセットアップをする場合は、nix-darwinというnix moduleを使うのですが、MacOSのdefaultsコマンドを使用して変更するパラメータ(たとえばInitialKeyRepeatやKeyRepeatなど)も宣言的に書けるので便利です。PAMの設定を変更してsudo実行時にTouch IDを使えるようにする設定もあったりします。非常に便利なので是非試してみてください! さて、本記事のタイトルである「Don’t Use Passwords in Your Snowflake Account」は、先月開催されたSnowflake Data C
こんにちは。バクラク事業部 機械学習・データ部 データグループの@civitaspoです。2024年6月3日から6日にかけてサンフランシスコで開催されたSnowflake Data Cloud Summit 2024に現地参加してきました。本記事では、その様子や感想をレポートしようと思います。 Snowflake Data Cloud Summit 2024 とは? Snowflake Data Cloud Summit 2024(以下、Summit)は2024年6月3日から6日にかけてサンフランシスコのモスコーニ・センターで開催された、Snowflake社が年次で主催する最大のユーザーカンファレンスです。Snowflakeの最新技術やデータクラウドの未来を語る基調講演に始まり、450を超えるセッションやハンズオンが行われました。参加者は全体で約1万5000人にのぼり、日本からは250人が
1社目のData Domainは数千億円規模でイグジット。2社目のServiceNowは10兆円の評価。そして今、CEOを務めるSnowflakeが圧倒的な成長率を実現──Frank SlootmanさんがCEOとして参画する事業は、いずれも「異次元」と呼べる成長を見せています。彼は、シリコンバレーにおけるプロ経営者の筆頭候補、と言っても過言ではないでしょう。 Frankさんは現在、Snowflakeの会長と最高経営責任者(CEO)を兼務しています。これまでもエンタープライズソフトウェア業界で25年以上にわたって、起業家やエグゼクティブとして活躍してきました。 2022年11月17日に開催した「ALL STAR SAAS CONFERENCE 2022」に、Frankさんが登壇。ALL STAR SAAS FUNDのマネージングパートナーである前田ヒロが、その経営スタイルを直接インタビュー
米NVIDIAは6月27日(現地時間)、SaaS型データウェアハウスを手掛ける米Snowflakeとの提携を発表した。顧客企業が独自のデータを使ってカスタマイズした生成AIアプリを開発するための環境の提供を目指す。 この提携により、Snowflakeの顧客は、NVIDIAの自動音声認識、自然言語処理、テキスト読み上げのAIモデルを構築・展開する、LLM(大規模言語モデル)開発プラットフォーム「NVIDIA NeMo」とNVIDIA GPUと、Snowflakeアカウント内の自社データを使って、チャットボット、検索、要約などの生成AIサービス用のカスタムLLMを作成できるようになる。 両社のAI技術を統合することで、「ビジネスのあらゆる部分に生成AIの力をもたらすアプリを迅速かつ簡単に構築、展開、管理できる」という。顧客企業は、管理対象データが既に存在する場所に生成AIアプリを構築できるので
米国企業がクラウドデータウェアハウスを利用するデータを精査し始めている。Snowflakeの四半期決算説明会から見えるのはコスト最適化への強いニーズだ。生成AIへの投資で状況は変わるだろうか。 クラウドベースのデータサービスを提供するSnowflakeが2023年5月24日に発表したところによると、同年4月30日までの3カ月間、顧客はデータ利用を控えており、同社はクラウド利用を最適化する必要性を感じている(注1)。 同社の会長兼CEO(最高経営責任者)であるフランク・スルートマン氏は、2023年5月24日に行われた2024年度第1四半期決算説明会の中で、「われわれは需要が不安定な環境の中で事業を行っており、それが全体的な消費パターンに反映されていると見ている」と述べた(注2)。 同社の命運は、ハイパースケーラー、特に2022年の収益率が横ばいもしくは減少しているAmazon Web Ser
さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ
公開日 2024/02/22更新日 2024/07/25Snowflake導入でどう変わった?身近なサービス4社の技術選定 データの利活用への重要性が年々高まっている昨今ですが、スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品としてSnowflakeに対する注目度も右肩上がりとなっています。 本記事では、Snowflakeを導入している企業・事業を対象に「なぜSnowflakeを導入したのか」「Snowflakeを導入して何が変わったか」さらには「データ基盤チームとして何を目指しているのか」を伺いました。 Snowflakeのメリットや活用方法はもちろん、Snowflakeという枠を飛び出してデータ基盤の設計思想やデータチームの取り組み方等でも参考にしていただける内容となっています。 株式会社kubell(旧Chatwork株式会社)事業概要国内最大級のビジネスチ
クラウドベースのDWHサービスとして今注目のSnowflake(スノーフレーク)が、ついにAWS東京リージョンで稼働するようになりました! SNOWFLAKE ANNOUNCES GENERAL AVAILABILITY ON AWS IN TOKYO | Snowflake 米スノーフレイク、データ分析クラウドを日本で開始 | 日本経済新聞 Snowflakeが東京リージョンで稼働することで、データベースを日本国内に配置できるようになりました。また、東京リージョンのS3に蓄積されている様々なファイルデータを、安全かつ高速にSnowflakeデータベースへロードできるようになります。 (抄訳)Snowflakeは、各Amazon Virtual Private CloudでAmazon S3ゲートウェイエンドポイントを使用します。 外部ステージによって参照されるS3バケットがSnowfla
REVISIOのエンジニア片岡です。 先日2月14日、Snowflakeの大規模イベントSNOWDAY JAPANに参加・登壇してきました。 登壇資料はこちら。 speakerdeck.com ANAインターコンチネンタルホテル東京+オンラインでの開催でしたが、オフラインイベントの独特の雰囲気と盛り上がりを久しぶりに体感できて非常に楽しかったです。 沢山の興味深いセッションや趣向を凝らした会場設営、コミュニティイベント含めてSnowflakeの世界観が感じられたイベントでした。 さて、タイトルにあるようにSNOWDAYでは時間の都合で紹介しきれなかった部分があったので、ここに書いておこうと思います。 RedshiftとSnowflakeは別の製品なので、当然違いは沢山あります。 ただ、Redshiftを色々なシーンで使用している状況から移行しようとするのであれば、ある程度同じ挙動をして欲し
5年ほど前、ビッグデータとアナリティクスをめぐる誇大広告はたくさんありましたが、今日では、この業界は現実的に誇大広告に応え、ビジネスを前進させる根本的な力へと変貌を遂げています。この数年間で、毎秒生成されるデータの量は飛躍的に増加しました。このため、分析ワークロードを効率的に処理するエンタープライズ向けクラウドデータウェアハウス技術が登場することになったのです。 データウェアハウスは、データを効率的に活用し、深い洞察を得るのに欠かせないものとなっています。となると、どのデータウェアハウスが自分のビジネスに最適なのかが大きな問題になってきます。Amazon Redshift、Google BigQuery、そしてSnowflakeの三大データウェアハウスを検討してみましょう。強力なリレーショナルDBMS(データベース管理システム)のデータベースモデルであるRedshiftとSnowflake
こんにちは、SaaS プロダクト開発部テックリードの丸山です。 先日、プライベートで使用している AWS アカウントに 15 万円の請求書が届きました。AWS Batch を使用して動画を GPU エンコードする仕組みを構築して運用していたのですが(構築したのは 5 年前)、プログラムの例外処理に不適切な点があり、プロセスが実行中のまま終了しない状態になってしまいました。そのため、コンピューティング環境(GPU を搭載した EC2 インスタンス)が動きっぱなしになり、高額請求される結果となりました。これを教訓に現在は毎日 AWS の料金を Slack に通知するようにしています。読者の皆さまにおかれましても、くれぐれも油断されなきよう。 さて今回は、少し前の話にはなりますが、昨年実施した視聴動向データの分析基盤のリニューアルプロジェクトについてご紹介したいと思います。 視聴動向データの分析
こんにちは。AI事業本部の AIR TRACK でサーバーサイドエンジニアをしている宮川です。プロダクトでデータウェアハウスを Redshift から Snowflake に乗り換えたので、意思決定をした理由や Snowflake のメリット・デメリットについてご紹介したいと思います。 Snowflake とは Snowflake とは Snowflake 社が提供するデータウェアハウス(DWH)です。 コンピュートノードとストレージを分離した設計がなされており、計算リソース(ウェアハウス)を簡単にスケールアップ・スケールアウトできること、ウェアハウスの利用分の従量課金であること*1が特徴となっています。また、各クラウドプロバイダー上でサービスを展開しているため、Snowflake にデータを入れる際に無駄なデータ転送量がかからないことも特徴です。 その他、SnowPipe という自動デー
ここ最近「SnowflakeとTreasure Dataの違いを教えてほしい」 といった質問を頂くことが増えています。 どちらもクラウドDWH(データウェアハウス)や、 クラウドデータプラットフォームと呼ばれるように、競合するプロダクトですね。 クラウドのスケールメリットを活かしている点、 ユーザビリティの高いGUIが用意されている点など、共通点が多いです。 2011年に米国で日本人が創業し、 2013年から今日に至るまで日本国内での普及を着実に進めていったTreasure Data。 2012年に米国で元Oracle出身者が創業し、 グローバルでの評価を確固たるものとし、 満を持して2019年に日本法人を設立したSnowflake。 グローバルでの知名度は圧倒的にSnowflakeの方が高いのですが 日本国内での歴史はまだ浅く、 国内においてはTreasure Dataの方が知名度が高く
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く