最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。
アクセス権の設定 以下の単位できめ細やかにアクセス権を設定することができます。 データセット テーブル 列 行(AuthorizedView) 制御しながらデータを見せる アクセス権とは違い、クエリの結果しか見せない、暗号化してしまうということもできます。 AuthorizedView 暗号化関数 監査ログ 誰がいつ、どこで、何をしたかの監査ログを取ることができます。 Cloud Logging(今回はこちらに関して触れませんが、とても大事なことです) データのアクセス権とジョブ(クエリ)の設定について アクセス権の設定の前に、この件を先に触れます。 BigQueryでは、データにアクセスする権限と、ジョブ(クエリ)を発行する権限が明確に分かれています。前者はBigQueryでデータセットやテーブルに対して付与します。後者はIAMでプロジェクトに対して付与します。 最初のうちは、この点を理
こんにちは。MackerelチームにおいてCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。 なぜ壊れにくいデータ基盤を構築するのか データ基盤が“壊れている”とはどういうことか 壊れてないだけでなく、壊れたら気付ける 前提とするシステム構成 壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視する そもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除 おわりに 参
FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙する まず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi
「BigQuery ML」:SQLで機械学習ってどういうこと?試しにSQLでロジスティック回帰を書いてみた。 はじめにGoogle Cloud Next 2018でBigQuery MLが発表されました。 文字通り、「BigQuery + 機械学習(Machine Learning)」を実現するもののようです。さっそく試してみたので、どんなものなのかと、その原理(の一部)を紹介したいと思います。この記事ではBigQuery MLの紹介と、それを直接SQLでやったらどのくらい大変かを見てみます。 BigQueryとは?BigQuery は、Google が提供するサーバーレスでスケーラビリティに優れた、低コストのエンタープライズ向けデータ ウェアハウスですとあるように、Googleのクラウドサービスの一つで、大規模なデータを貯めておくことができ、大量のデータに対しても分散して高速なデータの取
SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。 本記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。 背景 当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。 しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。 課題 メルカリでは販売済み商品を物理削除していないため、
今日で週休七日生活が終わる野球エンジニアこと@shinyorkeです. 昨年末に,BigQueryに突っ込んだ野球データでダルビッシュ有さん(@faridyu)の投球データについてかる~く調べてみました. 「今年こそPythonでデータ分析するぞ!」 「BigQueryをPythonから使いたいぞ!」 っていう野球好きの方の参考になれば幸いです. なお今回はホントにデータを覗き見した程度の軽いネタです. TL;DR 投球コースを散布図で可視化するといい感じになる 球種と結果をSankey Diagramにするのも面白い BigQueryとJupyter,pandasの組み合わせすっごい楽 次回はPySparkあたりで学習とかさせたい 多分おそらく@faridyuさんはここに書いた分析と傾向の斜め上をいくと思ういや行って欲しい(ファンとして) Starting Member TL;DR St
サーバーサイドエンジニアの芹沢です。 トレタは検索用のデータストアとしてBigQueryを使用しています。 奇抜な使い方はしていませんが、トレタにおけるBigQuery活用法を紹介します。 システム構成 BigQuery周りのシステム構成を1枚の図にまとめるとこんな感じです。珍しいものは使っていませんがその分安定した構成かと思います。 BigQueryにimportしているデータ 大きく分けて以下2種類のデータをBigQueryにimportしています。 1.APIが参照しているRDBのデータ APIが参照しているRDB(Amazon Aurora)のslaveからデータをimportしてデータ分析や調査用のデータ検索業務に使っています。 2.各種ログ 以下のログをfluentdでBigQueryに保存しています。 nginxのaccessログ railsで1リクエスト単位で出力しているカ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く