並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 701件

新着順 人気順

bigQueryの検索結果81 - 120 件 / 701件

  • SQLで始める自然言語処理 - やむやむもやむなし

    こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

      SQLで始める自然言語処理 - やむやむもやむなし
    • Google Apps Script× BigQuery × Googleスプレッドシート × データポータルで簡易CRMを作ってみた - BASEプロダクトチームブログ

      こんにちは!! BASE BANK 株式会社 Dev Division にてSoftware Developerをしている永野(@glassmonkey)です。 普段はGo/Python/PHPを主に生業に開発・運用から何でもござれの精神でフルサイクルエンジニアをしています。 現在、自分たちのプロダクトであるYELL BANKの分析基盤を構築しています。 その際に、BigQueryで扱っているデータをGoogle App Script(以下GAS)、Googleスプレッドシートとデータポータルで簡易CRMをビジネスサイドのメンバーである猪瀬 (@Masahiro_Inose)と協力して作ったのでそのご紹介です。 いざ実施してみるとハマってる点もそこそこ多く、意外とGASやBigQueryの連携している情報が少なかったので、誰かの助けになれば幸いです。 thebase.in 簡易CRMツール

        Google Apps Script× BigQuery × Googleスプレッドシート × データポータルで簡易CRMを作ってみた - BASEプロダクトチームブログ
      • 【速報】 BigQuery の料金体系が変更されます | DevelopersIO

        ウィスキー、シガー、パイプをこよなく愛する大栗です。 先程開催されたGoogle Data Cloud & AI Summitにて、BigQuery の料金体系の変更が発表されましたので、レポートします。 Introduction to BigQuery editions Dataset storage billing models BigQuery editions BigQuery で Standard、Enterprise、Enterprise Plus という3種類の料金階層が発表されました。これらのエディションは個々のワークロードの必要性に基づいて適切な価格性能比を組み合わせられます。 BigQuery editions は、コンピュート キャパシティのオートスケーリングと、compressed storage(Preview 時には physical storage と呼ばれて

          【速報】 BigQuery の料金体系が変更されます | DevelopersIO
        • Rettyのデータ基盤の歴史と統合 - Retty Tech Blog

          書き手:@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧 これらの記事はおかげさまで好評いただいております。いつもありがとうございます。 しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。 事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。 ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました(以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし

            Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
          • 【firestoreアンチパターン】RDB思考でfirestoreを使うと危険な4つのケースと対策 - Qiita

            こんにちは。virapture株式会社のもぐめっとです。 最近ユニクロで友達とオソロのメタモンTシャツ買いました。カワイイです。 本日はfirestore使ってて辛いよーという声をよく聞いたので、そのままfirestore使っていると危険な理由と対策など4つのアンチパターンとして紹介しようと思います。 1. Join Lover: データをjoinする 目的 RDBではよくあるテーブル同士を結合してデータを取り出すJoin。 firestoreでjoinを用いたいケースというのは特定のドキュメントのデータだけでは表示する要素が足りないので別のドキュメントから取得してなんとかするみたいな感じになると思います。 しかし、firestoreのプロもおっしゃってますが、firestoreへのjoin追加は望みが薄いと思われます。 RDBで重くなってる要因も外部結合や副問い合わせとかガンガン使って重

              【firestoreアンチパターン】RDB思考でfirestoreを使うと危険な4つのケースと対策 - Qiita
            • 全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG

              こんにちは、データ基盤の開発、運用をしていた谷口(case-k)です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。 共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。 本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。 データ基盤の紹介 旧データ基盤の紹介 旧データ基盤の課題 変更があっても更新されないデータ 性質の異なるテーブルを同じ命名規則で管理

                全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
              • 10TB超えのBigQuery巨大データを高速にS3に同期する - ZOZO TECH BLOG

                こんにちは。SRE部MA基盤チームの川津です。 私たちのチームでは今年サービスを終了した「IQON」の10TBを超える大規模データをBigQueryからS3へ移行しました。本記事ではデータ移行を行った際に検討したこと、実際にどのようにデータ移行を行ったかを紹介します。 データ移行の経緯 IQONは2020年4月6日をもってサービスを終了しました。そのIQONではデータ分析にBigQueryを利用していましたが、Amazon Web Services(AWS)上にもIQONに関するリソースが存在します。そのため、IQONはGCPとAWSの2つのクラウドで運用していました。 しかし、サービス終了に伴いGCP・AWSどちらかにリソースを統一する必要が出てきました。統一する意図としては、終了したサービスが利用する取引先を減らし、請求対応などの事務的なコストを減らしたい意図がありました。そのためGC

                  10TB超えのBigQuery巨大データを高速にS3に同期する - ZOZO TECH BLOG
                • BigQuery SQL でレイトレーシング - Qiita

                  # 以降はコメントなのでこれは valid な pnm フォーマットです。 拡張子 pgm で保存すれば、Windows の場合は IfranView、macOS の場合は Preview.app で表示できます。 これで BigQuery で画像を出力できることが確認できました。 BigQuery によるレイトレーシング というわけで、BigQueryでレイトレーシングをやってみましょう。 実際のSQLコードは以下のようになります。 -- Vec3のドット積 CREATE TEMPORARY FUNCTION DOT (a STRUCT<x FLOAT64, y FLOAT64, z FLOAT64>, b STRUCT<x FLOAT64, y FLOAT64, z FLOAT64>) AS ( a.x*b.x + a.y*b.y + a.z*b.z ) ; -- 線形結合 aP +

                    BigQuery SQL でレイトレーシング - Qiita
                  • ありがとうRedshift よろしくBigQuery - freee Developers Hub

                    ナカミチといいます。freeeのデータ基盤でエンジニア業に勤しむ日々です。 今回は長年freeeの分析環境を支えてくれたRedshiftをBigQueryに移行したお話。 なお技術的な詳細までは触れず、移行プロジェクト全体に関して記述しています。 (Techieな記事を期待した方スミマセンmm) 移行の規模はどんなもんか ボリューム的にはざっと下記の通りです。 テーブル数: 約2,000テーブル データ量: 約180TB(snappy) クエリ数: 約500件 移行期間: 約1年4ヶ月(準備期間含む) そもそもなんで移行したの? 大別すると移行を決めた理由は3つほど。 パフォーマンス向上が見込めた 手段を多様化したい エンジニアリソースの最適化 以下にそれぞれ細かく記述します。 1. パフォーマンス向上が見込めた SQLによりますが、それまで使っていたRedshift環境と比べて平均5〜6

                      ありがとうRedshift よろしくBigQuery - freee Developers Hub
                    • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

                      こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

                        BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
                      • Slack チャンネルのロボット帝国化を防ぐ feed-pruning-proxy - ぽ靴な缶

                        この記事は はてなエンジニア Advent Calendar 2022 2日目の記事です。 みなさんは Slack の RSS アプリ を使っていますか? /feed subscribe FEED_URL で RSS や Atom フィードをチャンネルに流すことができます。 Slack に RSS フィードを追加する | Slack これを使って各種リリースノートやニュースサイトの新着をいろんなチャンネルに流しています。Slack をお使いの皆様もきっとそうしているでしょう。 フィードによって技術の最前線をキャッチアップでき、供給された話題は参加者同士の活発な議論を産む。学習とコラボレーションが同時に促進される素晴らしい機能と言えますね。 . . . 本当か??? 例えば BigQuery のリリースノートを流すとこうなる!! 激流 これ 5 記事あるわけじゃないからな。 フィード的には

                          Slack チャンネルのロボット帝国化を防ぐ feed-pruning-proxy - ぽ靴な缶
                        • Google Analytics4ではページビューは5秒以上見た場合に限定される件 - Qiita

                          Universal Analytics(UA)からGoogle Analytics4(GA4)ではページビューという概念が結構変わっています。 同じページにUAとGA4と設置 同じ発火タイミングでやっています。また、特にクロスドメイン設定などは行っていません。 GA4では最大5秒程度のページ閲覧が必要 UAの場合、ページが呼び出されてタグが動いた瞬間にページビューがカウントされます。一方でGA4ではUAのタグ発火から5秒程度遅れてから発動するようです。 UAのタグ発火は1.93秒 GA4のタグ発火は6.94秒 多分Googleがページビューという概念を、少なくとも5秒閲覧した状態と定義したのだと思われます。 今まで解析する際に、PV数が2以上や3以上といったセグメントを切って「真面目に回遊しているセッション」だけを洗い出す技が有りましたが、GA4からは特に意識する必要もなくなったように思え

                            Google Analytics4ではページビューは5秒以上見た場合に限定される件 - Qiita
                          • メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526

                            Google Cloud Day: Digital ’21 の発表資料です。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo ---------------------------------------------------------------------------------------------------- データドリブンに事業を推進するメルカリグループのデータ分析基盤を紹介します。 BigQuery とマネージド ETL & ワークフローサービス trocco® の活用で、Google Cloud 領域外の新規データ連携毎に発生するフルスクラッチ開発から脱却し、希少なデータエンジニア工数を創出。決済データと紐づけた営業活動分析にも成功しています。 分析基盤構成

                              メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
                            • 既存リソースをTerraformでimportする作業を楽にする - KAYAC engineers' blog

                              SREチームの今です。 カヤックでは、クラウドリソースの管理にはTerraformを利用することが多いです。 クラウドリソースの構成や設定をコードで管理することで、リソースの変更内容の差分をレビューできる、意図しない設定変更を発見できるなどの利点があり、SREの目的であるサービスを安定して提供する上で重要な要素の一つです。 実際の作業として、既に運用中のサービスを新たにTerraform管理下に置く場合や、多くのリソースが既にweb consoleから作成されているものをTerraform管理下に追加する場合も多いと思います。 その際にはTerraform importをする必要があります。しかし、Terraform importは単純作業とはいえ時間と手間がかかり、優先順位を下げてついつい後回しにしてしまうことも多いのではないでしょうか。 今回は、手作業でTerraform import

                                既存リソースをTerraformでimportする作業を楽にする - KAYAC engineers' blog
                              • オウンドメディア担当者が知っておきたい GA4 × BigQuery 前編(寄稿:小川卓) - はてなビジネスブログ

                                株式会社HAPPY ANALYTICSの小川卓(id:ryuka01)です。 今回は、全2回で Google アナリティクス4(以下「GA4」) × BigQuery に関して紹介をしていきます。 第1回は、BigQueryについての基本的なご説明と、GA4連携におけるメリットなどについてご紹介していきます。 GA4 × BigQuery を活用することで、オウンドメディアの分析や効果の可視化に大きく役立つと思いますので、ぜひ参考にしてみてください。 BigQueryとは? 注目される3つの理由とBigQueryの料金体系 GA4と連携するメリット・デメリット 主なメリット GA4のデータを集計前の状態で恒久的に保存することができる GA4の画面だけでは出しにくい(出せないあるいは出すのに手間がかかる)データを簡単に出せる GA4のデータを他のサービスと連携することが可能になる 上記に伴い

                                  オウンドメディア担当者が知っておきたい GA4 × BigQuery 前編(寄稿:小川卓) - はてなビジネスブログ
                                • セキュアなBigQueryの運用方法

                                  JulyTechFesta2021 登壇資料 https://techfesta.connpass.com/event/213069/ IAM,VPC Service Controls, Logging, 承認済みviewなどBigQuery周りのセキュリティサービスはいくつもあります。セキュリティを担保するためのサービスとしてどのようなものがあるのか、またそれを使った運用方法はどのようなやり方があるのかを実例を交えて紹介します。 #JTF2021 #JTF2020_C

                                    セキュアなBigQueryの運用方法
                                  • SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog

                                    こんにちは。河内です。 最近はデータ基盤の構築も取り組んでいたりします。 社内では他の DWH が使われている事例がありますが、今回の基盤ではデータソースとの親和性や価格面などを考慮し BigQuery で行くことにしました。 BigQuery 上で多くのデータを順次変換してデータを生成するために何らかのワークフローエンジンが必要でした。 社内の他のシステムではワークフローエンジンとして Digdag を採用している例が多いですが、このシステムでは Kubernetes 上でサービスを運用しているため、当初(2020年12月)は Argo Workflow 上でクエリを順次実行することを構想していました。構想中に Dataform が Google に買収され、無料で使えるようになったというニュースが飛び込んできたため、触って感触が良いことを確かめた後、Dataform を使っていくことに

                                      SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog
                                    • BigQueryでの集計結果をノーコードでSlackに定期投稿してみた - ZOZO TECH BLOG

                                      こんにちは、DATA-SREチームの塩崎です。最近気になるニュースは「ネコがマタタビを好む理由が蚊を避けるためだった1」です。 さて、皆さんはデータ基盤で集計した結果をどのようにして確認していますか。LookerやPower BIなどのBIツールを使って綺麗なダッシュボードを作成している方も多いかと思います。しかし、全員が毎日確認すべき数値はSlackなどの全員が日常的に目にする場所へ掲げたいです。本記事ではBigQueryとSlackを連携させる機能をノーコードで作成する方法を紹介します。 従来手法 BigQueryで集計した結果をSlackに通知するためにはGoogle Apps Script(以下、GAS)を用いるやり方が現在では主流です。GASの文法はJavaScriptとほぼ同じであり、普段分析をメインで担当している人たちには馴染みの薄い言語です。また、Cloud Functio

                                        BigQueryでの集計結果をノーコードでSlackに定期投稿してみた - ZOZO TECH BLOG
                                      • N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ

                                        はじめに 昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。 はじめに N予備校における従来のデータの取り扱い 現在の取り組み 本番環境のデータのBigQueryへの蓄積 データ活用のプロトタイピング そのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討 分析対象のデータ拡充 データの管理体制 機械学習技術等の活用 おわりに We are hiring! N予備校における従来のデータの取り扱い まず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現

                                          N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
                                        • 毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management

                                          毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management

                                            毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management
                                          • 一迅プラスのインフラ構成について - BOOK☆WALKER inside

                                            こんにちは。 メディアサービス開発部バックエンド開発グループのフサギコ(髙﨑)です。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では株式会社一迅社さまの公式漫画連載サイトであり、ブックウォーカーが開発保守運用を担当している一迅プラスのサービスインフラの概要についてご紹介したいと思います。 もしよければ、前記事のニコニコ漫画のインフラ構成についてならびに読書メーターのインフラ構成についてもご覧ください。 一迅プラスについて 一迅プラスは株式会社一迅社さまが運営する公式漫画連載サービスです。 冒頭試し読みから連載まで、2022/06/10現在で150を超える作品が掲載されています。 一迅プラスのトップページ この一迅プラスにおいてブックウォーカーは開発保守運用を担当し

                                              一迅プラスのインフラ構成について - BOOK☆WALKER inside
                                            • BigQuery で 1 円も溶かさない人の顔 (ZERO BYTE STRUCT を考案した) - Qiita

                                              自分は BigQuery で Extract-Load されたデータを機械学習モデル用に前処理し、テラバイト級の特徴量エンジニアリングを行っています。この記事では、BigQuery のデータ量を一切消費せず、誇張なく 1 円も溶かさない裏技をまとめます。(2019/12/18 現在) ※ パロ元:BigQueryで150万円溶かした人の顔 元ネタの方と同じ職場で働くことになりましたので、被せて書いております。この記事では、BigQuery 記事最安値を目指します。 速くて安い BigQuery は、データウェアハウスとしても、特徴量エンジニアリングツールとしても優れており、機械学習モデルを用いたサービスを構築する際には、ベースラインとして一候補に挙がるでしょう。 BigQuery の料金 オンデマンドクエリを利用する際、極めて重要なのは読み取りデータ量に対して \$5/TB の料金が発生す

                                                BigQuery で 1 円も溶かさない人の顔 (ZERO BYTE STRUCT を考案した) - Qiita
                                              • スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ

                                                こんにちは。株式会社High Link で業務委託として働いている、データエンジニアのikki(@ikki_mz)です。 私たちデータチームでは、「データの民主化」を推進しており、全社員がデータ利活用を行えるように、dbtを用いた分析基盤の整備に取り組んでいます。 tech.high-link.co.jp データの民主化を推進していくにあたり、テーブル・カラムの説明文は非常に重要な役割を占めます。テーブルやカラムが何を意味しているかの説明は、分析をする上ではとても重要です。 しかし、このテーブルやカラムの説明はなかなか厄介で、データベースを開発した開発エンジニアとコミュニケーションをとらないと、説明文を正確に書くことができません。 そこで私たちは、dbt・スプレッドシートを使って、テーブルやカラムの説明文の入力をするという、組織横断的なプロジェクトを実施しました。 背景と課題 dbt de

                                                  スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ
                                                • メルペイDataPlatformのCDC DataPipeline | メルカリエンジニアリング

                                                  こんにちは、メルペイ DataPlatformチーム(@rerorero, @darklore, @laughingman7743)です。 この記事は、Merpay Tech Openness Month 2022 の14日目の記事です。 今日はメルペイ DataPlatformで取り組んでいるCDCパイプラインについて紹介します。 CDCパイプラインとは何か CDCとは Change Data Capture の略称で、データベース内のデータの変更(新規作成、削除、変更など)を追跡するシステムです。データソースで発生した変更は、ニアリアルタイムでデータシンクに反映させることができます。 CDCの実現方法にはいくつかあるのですが、メルペイ DataPlatformでは以下の2つの方法を使ったパイプラインを構築しています。 Striim社のブログ がよくまとまっていたので、こちらから引用させ

                                                    メルペイDataPlatformのCDC DataPipeline | メルカリエンジニアリング
                                                  • NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 | IT Leaders

                                                    IT Leaders トップ > テクノロジー一覧 > BI/BA/DWH > 事例ニュース > NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 BI/BA/DWH BI/BA/DWH記事一覧へ [事例ニュース] NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 2021年9月7日(火)日川 佳三(IT Leaders編集部) リスト NTTドコモが自社のデータ分析基盤に「Google BigQuery」を導入した。オンプレミスとAWS(Amazon Web Services)で構成していた既存のデータ分析基盤にBigQueryを追加し、2021年7月から本格稼働を開始している。現在、高い処理性能を要求するユースケースなどユーザークエリーの6~7割をBigQ

                                                      NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 | IT Leaders
                                                    • dbtで始めるデータパイプライン構築〜入門から実践〜

                                                      事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

                                                        dbtで始めるデータパイプライン構築〜入門から実践〜
                                                      • SQLレクチャー会をチーム内でやっている話 - yasuhisa's blog

                                                        ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目的はこんな感じです。 チーム内のSQL / 分析力の底上げ データの民主化的なやつ データライフサイクルの改善 集計側であれこれ無理に頑張るより、入力データを集計側に合わせてもらうほうが圧倒的に省力化されることが多い データの入力側と集計側の意識を合わせることで、チームのデータ分析のしやすさを高めていきたい 毎月、毎期末作っているスプレッドシートの自動化 手間を減らしたり、手作業によるミスを減らしたり このエントリをきっかけに「うちでも似たことやってるけど、この取り組みをやってみたらさらにうまくいったよ」といったことが知れるとうれしいです。 背景

                                                          SQLレクチャー会をチーム内でやっている話 - yasuhisa's blog
                                                        • メルカリにおける分析環境整備の取り組み - Speaker Deck

                                                          Transcript 1 ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥ੔උͷऔΓ૊Έ גࣜձࣾϝϧΧϦ / JP Data Analyst ӬҪ৳໻ 2 Introduction 3 ! ӬҪ ৳໻ ! גࣜձࣾϝϧΧϦ / JP ! Data Analyst ◦ ෼ੳ؀ڥͷ੔උͳͲΛ୲౰ ࣗݾ঺հ 4 ! ݱঢ় ◦ ͳͥվળʹऔΓ૊Ήͷ͔?
 ! ͋Γ͍ͨ࢟ ◦ վળͷαΠΫϧΛճ͍ͨ͠ɻ ! औΓ૊Έ ◦ ϨΨγʔͳσʔληοτΛഇࢭ͢Δɻ ◦ ͦͷͨΊʹɺۀ຿ͱKPIͱج൫ΛηοτͰߟ͑Δɻ ΞδΣϯμ : ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥͷ੔උͷࣄྫ 5 ݱঢ় | ͳͥվળʹऔΓ૊Ήͷ͔? 6 ! ج൫ ◦ BigQuery + Looker ! ن໛ ◦ ΫΤϦ࣮ߦϢʔβʔ਺ 700ਓҎ্/݄ ◦ ࢀর͞Ε͍ͯΔςʔϒϧ਺ 100Ҏ্/݄ ◦ Analyst, PdM, ML, CS, ͳͲ ϝϧΧϦʹ͓͚

                                                            メルカリにおける分析環境整備の取り組み - Speaker Deck
                                                          • 問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal

                                                            はじめに こんにちは。CS 室で Customer Ops をやっています @morimai です。 わたしが所属する Customer Ops チームは、CS 室の業務に必要なデータ基盤の構築・運用や業務の自動化、データ活用の促進などをメインに活動しています。 今回は、CS(カスタマーサポート、カスタマーサクセス)の大前提である「問い合わせ対応の安定運営」を実現し、顧客体験向上に寄与するために、「問い合わせ対応の生産性」を計測・可視化したことについてご紹介します。 はじめに なぜ問い合わせ対応の生産性を計測・可視化するのか どのように計測・可視化するか 問い合わせ対応をするパートナーごとの「問い合わせ対応件数」の収集 問い合わせ対応をするパートナーごとの「問い合わせ対応時間」の収集 収集したデータをもとに 1 時間あたりの対応件数を自動で毎日計算・可視化 Google Sheets と

                                                              問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal
                                                            • dbtを触ってみた感想 - yasuhisa's blog

                                                              データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

                                                                dbtを触ってみた感想 - yasuhisa's blog
                                                              • 商品数の増加を見据えて商品情報作成処理をPythonからBigQueryに移行した話 | SQLによるバッチ処理で工夫した3つのポイント - MonotaRO Tech Blog

                                                                こんにちは、EC基盤グループ 商品情報基盤チームの江村です。今回は私が所属している商品情報基盤チームで構築、運用を行っているシステムについてお話します。 モノタロウでは以前から記事になっていますが、検索システムの移行を行っており、現在商品検索ページの裏側の検索システムのSolrからElasticsearchへの切り替え*1が完了しました。 私が所属している商品情報基盤チームではElasticsearch、Spannerに入れるための商品情報の作成とSpannerおよび、Spannerからデータを取得するAPIの運用を行っています。今回はその中でもElasticsearch、SpannerのためのBigQueryでの商品情報作成処理について取り上げます。(詳しい検索部分の構成については以前の記事を参照ください) システム移行の背景 移行による設計ポイント 「MySQL + Python」の処

                                                                  商品数の増加を見据えて商品情報作成処理をPythonからBigQueryに移行した話 | SQLによるバッチ処理で工夫した3つのポイント - MonotaRO Tech Blog
                                                                • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                                                                  整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                                                                    データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                                                                  • BigQuery MLエンジンとTableauで実現する中古マンション取引額予測シミュレーションの実際 | 株式会社プリンシプル

                                                                    BigQuery MLによる予測の全体像 機械学習を学ぶにあたり、その全体像が提示されていないことが妨げになっている気がしています。筆者も勉強中の身ではありますが、自分自身の学びの整理のためにも本記事を執筆しています。 本ブログ記事は、過度に詳細に踏み込まない代わりに、その全体像を提示することで、私と同様の学習者である多くのユーザーがBigQueryのMLエンジンを利用できるようになる(少なくともやってみようと思える)ことを目的としています。 全体像は以下の7ステップで説明できます。そのうち、純粋に機械学習周りの技術を使っているのは、3、4、5、6のステップであり、1、2は準備、7は検算です。 データの取得と整形 整形の完了したデータのアップロード モデルの作成 モデルの評価 特徴量の調整やモデルのオプションの調整 予測値の取り出し 検算 ① データの取得と整形 機械学習にはある程度まとま

                                                                      BigQuery MLエンジンとTableauで実現する中古マンション取引額予測シミュレーションの実際 | 株式会社プリンシプル
                                                                    • PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball

                                                                      日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグです)を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのか どのような処理, どのようなユースケースで動かしているのか これらをどのようなアーキテクチャで実現したのか 以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて(2022/10/15 16:00-16:30)」の予告編でもあります. なので, 後日のトークをお楽しみに

                                                                        PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
                                                                      • 累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224

                                                                        primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/

                                                                          累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
                                                                        • 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog

                                                                          Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。 使ってみようとした背景 Dataformについて 試してみてどうだったか よかった まだまだこれからっぽいところ & 気になり 参考 使ってみようとした背景 今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。 自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも

                                                                            開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
                                                                          • Amazon AuroraのデータをリアルタイムにGoogle BigQueryに連携してみた / Realtime data linkage from Amazon Aurora to Google BigQuery

                                                                            Amazon AuroraのデータをリアルタイムにGoogle BigQueryに連携してみた / Realtime data linkage from Amazon Aurora to Google BigQuery

                                                                              Amazon AuroraのデータをリアルタイムにGoogle BigQueryに連携してみた / Realtime data linkage from Amazon Aurora to Google BigQuery
                                                                            • BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0

                                                                              この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。 しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。 そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。 目次 この記事の概要 目次 宣伝 実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース 最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか 最後に

                                                                                BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
                                                                              • GCP のログ大全2019

                                                                                この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 5 日目の記事です。 GCPにおけるログのライフサイクルGCPにおけるログのライフサイクルは、収集・集約・活用・保管の大きく4つのフェーズに分類できると考えております。まずそれぞれのフェーズの中でどのようなことができるのか、皆様に知っておいておきたいことについて説明します。 収集フェーズログを発生させる元のシステムから集めてくるフェーズです。ログの発生元がどこであれ、最終的には Stackdriver の Logging API にログを送ることで収集を行います。もちろんGCPのサービスで発生するログは自動的に収集されますが、GCP上のユーザアプリケーションのログや、オンプレミスや他クラウド環境からのログは、Logging エージェントかLoggin APIの

                                                                                  GCP のログ大全2019
                                                                                • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                                                                                  DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                                                                                    dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                                                                                  新着記事