[3ページ] bigQueryの人気記事 701件 - はてなブックマーク

81 - 120 件 / 701件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

bigQueryの検索結果81 - 120 件 / 701件

SQLで始める自然言語処理 - やむやむもやむなし
- 83 users
- ymym3412.hatenablog.com
- テクノロジー
- 2020/12/24
こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス！ adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ
- bigquery
- sql
- NLP
- 自然言語処理
- あとで読む
- DWH
- 機械学習
- Python
Google Apps Script× BigQuery × Googleスプレッドシート × データポータルで簡易CRMを作ってみた - BASEプロダクトチームブログ
- 82 users
- devblog.thebase.in
- テクノロジー
- 2021/07/07
こんにちは!! BASE BANK 株式会社 Dev Division にてSoftware Developerをしている永野(@glassmonkey)です。普段はGo/Python/PHPを主に生業に開発・運用から何でもござれの精神でフルサイクルエンジニアをしています。現在、自分たちのプロダクトであるYELL BANKの分析基盤を構築しています。その際に、BigQueryで扱っているデータをGoogle App Script(以下GAS)、Googleスプレッドシートとデータポータルで簡易CRMをビジネスサイドのメンバーである猪瀬 (@Masahiro_Inose)と協力して作ったのでそのご紹介です。いざ実施してみるとハマってる点もそこそこ多く、意外とGASやBigQueryの連携している情報が少なかったので、誰かの助けになれば幸いです。 thebase.in 簡易CRMツール
- BigQuery
- GAS
- Google Spreadsheets
- OAuth
- あとで読む
- GCP
【速報】 BigQuery の料金体系が変更されます | DevelopersIO
- 82 users
- dev.classmethod.jp
- テクノロジー
- 2023/03/30
ウィスキー、シガー、パイプをこよなく愛する大栗です。先程開催されたGoogle Data Cloud & AI Summitにて、BigQuery の料金体系の変更が発表されましたので、レポートします。 Introduction to BigQuery editions Dataset storage billing models BigQuery editions BigQuery で Standard、Enterprise、Enterprise Plus という3種類の料金階層が発表されました。これらのエディションは個々のワークロードの必要性に基づいて適切な価格性能比を組み合わせられます。 BigQuery editions は、コンピュートキャパシティのオートスケーリングと、compressed storage（Preview 時には physical storage と呼ばれて
Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
- 82 users
- engineer.retty.me
- テクノロジー
- 2020/05/27
書き手：@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧これらの記事はおかげさまで好評いただいております。いつもありがとうございます。しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました（以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし

【firestoreアンチパターン】RDB思考でfirestoreを使うと危険な4つのケースと対策 - Qiita
- 79 users
- qiita.com/mogmet
- テクノロジー
- 2021/09/30
こんにちは。virapture株式会社のもぐめっとです。最近ユニクロで友達とオソロのメタモンTシャツ買いました。カワイイです。本日はfirestore使ってて辛いよーという声をよく聞いたので、そのままfirestore使っていると危険な理由と対策など4つのアンチパターンとして紹介しようと思います。 1. Join Lover: データをjoinする目的 RDBではよくあるテーブル同士を結合してデータを取り出すJoin。 firestoreでjoinを用いたいケースというのは特定のドキュメントのデータだけでは表示する要素が足りないので別のドキュメントから取得してなんとかするみたいな感じになると思います。しかし、firestoreのプロもおっしゃってますが、firestoreへのjoin追加は望みが薄いと思われます。 RDBで重くなってる要因も外部結合や副問い合わせとかガンガン使って重
- firebase
- あとで読む
- db
- firestore
- データ
- RDB
- BigQuery
- Serverless
- SQL
- qiita
全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
- 79 users
- techblog.zozo.com
- テクノロジー
- 2022/09/15
こんにちは、データ基盤の開発、運用をしていた谷口（case-k）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。データ基盤の紹介旧データ基盤の紹介旧データ基盤の課題変更があっても更新されないデータ性質の異なるテーブルを同じ命名規則で管理
- BigQuery
- あとで読む
- データ
- gcp
- 分析
10TB超えのBigQuery巨大データを高速にS3に同期する - ZOZO TECH BLOG
- 79 users
- techblog.zozo.com
- テクノロジー
- 2020/10/23
こんにちは。SRE部MA基盤チームの川津です。私たちのチームでは今年サービスを終了した「IQON」の10TBを超える大規模データをBigQueryからS3へ移行しました。本記事ではデータ移行を行った際に検討したこと、実際にどのようにデータ移行を行ったかを紹介します。データ移行の経緯 IQONは2020年4月6日をもってサービスを終了しました。そのIQONではデータ分析にBigQueryを利用していましたが、Amazon Web Services(AWS)上にもIQONに関するリソースが存在します。そのため、IQONはGCPとAWSの2つのクラウドで運用していました。しかし、サービス終了に伴いGCP・AWSどちらかにリソースを統一する必要が出てきました。統一する意図としては、終了したサービスが利用する取引先を減らし、請求対応などの事務的なコストを減らしたい意図がありました。そのためGC
- bigquery
- あとで読む
- aws
- s3
- gcp
- 移行
- データ
BigQuery SQL でレイトレーシング - Qiita
- 78 users
- qiita.com/zakuro
- テクノロジー
- 2020/12/19
# 以降はコメントなのでこれは valid な pnm フォーマットです。拡張子 pgm で保存すれば、Windows の場合は IfranView、macOS の場合は Preview.app で表示できます。これで BigQuery で画像を出力できることが確認できました。 BigQuery によるレイトレーシングというわけで、BigQueryでレイトレーシングをやってみましょう。実際のSQLコードは以下のようになります。 -- Vec3のドット積 CREATE TEMPORARY FUNCTION DOT (a STRUCT<x FLOAT64, y FLOAT64, z FLOAT64>, b STRUCT<x FLOAT64, y FLOAT64, z FLOAT64>) AS ( a.x*b.x + a.y*b.y + a.z*b.z ) ; -- 線形結合 aP +
- BigQuery
- SQL
- あとで読む
- qiita
- 3D
ありがとうRedshift よろしくBigQuery - freee Developers Hub
- 76 users
- developers.freee.co.jp
- テクノロジー
- 2022/04/06
ナカミチといいます。freeeのデータ基盤でエンジニア業に勤しむ日々です。今回は長年freeeの分析環境を支えてくれたRedshiftをBigQueryに移行したお話。なお技術的な詳細までは触れず、移行プロジェクト全体に関して記述しています。 (Techieな記事を期待した方スミマセンｍｍ) 移行の規模はどんなもんかボリューム的にはざっと下記の通りです。テーブル数: 約2,000テーブルデータ量: 約180TB(snappy) クエリ数: 約500件移行期間: 約1年4ヶ月(準備期間含む) そもそもなんで移行したの？大別すると移行を決めた理由は3つほど。パフォーマンス向上が見込めた手段を多様化したいエンジニアリソースの最適化以下にそれぞれ細かく記述します。 1. パフォーマンス向上が見込めた SQLによりますが、それまで使っていたRedshift環境と比べて平均5〜6
- BigQuery
- freee
- db
- あとで読む
- gcp
- SQL
- エンジニア
- aws
BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
- 76 users
- techblog.zozo.com
- テクノロジー
- 2022/08/16
こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。目次目次マス・セグメント配信基盤の紹介課題冪等化 BigQuery追記処理に関する冪等化の取り組み冪等にならないケース INSERT 初
- BigQuery
- あとで読む
- データ
- ZOZO
- クラウド
- 統計
- 技術
Slack チャンネルのロボット帝国化を防ぐ feed-pruning-proxy - ぽ靴な缶
- 75 users
- blog.pokutuna.com
- テクノロジー
- 2022/12/02
この記事ははてなエンジニア Advent Calendar 2022 2日目の記事です。みなさんは Slack の RSS アプリを使っていますか? /feed subscribe FEED_URL で RSS や Atom フィードをチャンネルに流すことができます。 Slack に RSS フィードを追加する | Slack これを使って各種リリースノートやニュースサイトの新着をいろんなチャンネルに流しています。Slack をお使いの皆様もきっとそうしているでしょう。フィードによって技術の最前線をキャッチアップでき、供給された話題は参加者同士の活発な議論を産む。学習とコラボレーションが同時に促進される素晴らしい機能と言えますね。 . . . 本当か??? 例えば BigQuery のリリースノートを流すとこうなる!! 激流これ 5 記事あるわけじゃないからな。フィード的には
Google Analytics4ではページビューは5秒以上見た場合に限定される件 - Qiita
- 71 users
- qiita.com/michihito_t
- テクノロジー
- 2021/01/06
Universal Analytics(UA)からGoogle Analytics4(GA4)ではページビューという概念が結構変わっています。同じページにUAとGA4と設置同じ発火タイミングでやっています。また、特にクロスドメイン設定などは行っていません。 GA4では最大5秒程度のページ閲覧が必要 UAの場合、ページが呼び出されてタグが動いた瞬間にページビューがカウントされます。一方でGA4ではUAのタグ発火から5秒程度遅れてから発動するようです。 UAのタグ発火は1.93秒 GA4のタグ発火は6.94秒多分Googleがページビューという概念を、少なくとも5秒閲覧した状態と定義したのだと思われます。今まで解析する際に、PV数が2以上や3以上といったセグメントを切って「真面目に回遊しているセッション」だけを洗い出す技が有りましたが、GA4からは特に意識する必要もなくなったように思え
メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
- 71 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/05/26
Google Cloud Day: Digital ’21 の発表資料です。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo ---------------------------------------------------------------------------------------------------- データドリブンに事業を推進するメルカリグループのデータ分析基盤を紹介します。 BigQuery とマネージド ETL & ワークフローサービス trocco® の活用で、Google Cloud 領域外の新規データ連携毎に発生するフルスクラッチ開発から脱却し、希少なデータエンジニア工数を創出。決済データと紐づけた営業活動分析にも成功しています。分析基盤構成
- BigQuery
- DWH
- あとで読む
- DataPlatform
- etl
- データ
- Mercari
- メルカリ
- 運用
既存リソースをTerraformでimportする作業を楽にする - KAYAC engineers' blog
- 70 users
- techblog.kayac.com
- テクノロジー
- 2022/02/28
SREチームの今です。カヤックでは、クラウドリソースの管理にはTerraformを利用することが多いです。クラウドリソースの構成や設定をコードで管理することで、リソースの変更内容の差分をレビューできる、意図しない設定変更を発見できるなどの利点があり、SREの目的であるサービスを安定して提供する上で重要な要素の一つです。実際の作業として、既に運用中のサービスを新たにTerraform管理下に置く場合や、多くのリソースが既にweb consoleから作成されているものをTerraform管理下に追加する場合も多いと思います。その際にはTerraform importをする必要があります。しかし、Terraform importは単純作業とはいえ時間と手間がかかり、優先順位を下げてついつい後回しにしてしまうことも多いのではないでしょうか。今回は、手作業でTerraform import
オウンドメディア担当者が知っておきたい GA4 × BigQuery 前編（寄稿：小川卓） - はてなビジネスブログ
- 69 users
- business.hatenastaff.com
- テクノロジー
- 2023/08/24
株式会社HAPPY ANALYTICSの小川卓（id:ryuka01）です。今回は、全2回で Google アナリティクス4（以下「GA4」) × BigQuery に関して紹介をしていきます。第1回は、BigQueryについての基本的なご説明と、GA4連携におけるメリットなどについてご紹介していきます。 GA4 × BigQuery を活用することで、オウンドメディアの分析や効果の可視化に大きく役立つと思いますので、ぜひ参考にしてみてください。 BigQueryとは？注目される３つの理由とBigQueryの料金体系 GA4と連携するメリット・デメリット主なメリット GA4のデータを集計前の状態で恒久的に保存することができる GA4の画面だけでは出しにくい（出せないあるいは出すのに手間がかかる）データを簡単に出せる GA4のデータを他のサービスと連携することが可能になる上記に伴い
セキュアなBigQueryの運用方法
- 68 users
- speakerdeck.com/yuyamada
- テクノロジー
- 2021/07/18
JulyTechFesta2021 登壇資料 https://techfesta.connpass.com/event/213069/ IAM,VPC Service Controls, Logging, 承認済みviewなどBigQuery周りのセキュリティサービスはいくつもあります。セキュリティを担保するためのサービスとしてどのようなものがあるのか、またそれを使った運用方法はどのようなやり方があるのかを実例を交えて紹介します。 #JTF2021 #JTF2020_C
- BigQuery
- 運用
- セキュリティ
- 設定
- security
- あとで読む
- GCP
- slide
SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog
- 67 users
- labs.septeni.co.jp
- テクノロジー
- 2021/04/04
こんにちは。河内です。最近はデータ基盤の構築も取り組んでいたりします。社内では他の DWH が使われている事例がありますが、今回の基盤ではデータソースとの親和性や価格面などを考慮し BigQuery で行くことにしました。 BigQuery 上で多くのデータを順次変換してデータを生成するために何らかのワークフローエンジンが必要でした。社内の他のシステムではワークフローエンジンとして Digdag を採用している例が多いですが、このシステムでは Kubernetes 上でサービスを運用しているため、当初(2020年12月)は Argo Workflow 上でクエリを順次実行することを構想していました。構想中に Dataform が Google に買収され、無料で使えるようになったというニュースが飛び込んできたため、触って感触が良いことを確かめた後、Dataform を使っていくことに
- sql
- Dataform
- BigQuery
- あとで読む
- データ基盤
- データ
- 開発
BigQueryでの集計結果をノーコードでSlackに定期投稿してみた - ZOZO TECH BLOG
- 67 users
- techblog.zozo.com
- テクノロジー
- 2021/04/13
こんにちは、DATA-SREチームの塩崎です。最近気になるニュースは「ネコがマタタビを好む理由が蚊を避けるためだった1」です。さて、皆さんはデータ基盤で集計した結果をどのようにして確認していますか。LookerやPower BIなどのBIツールを使って綺麗なダッシュボードを作成している方も多いかと思います。しかし、全員が毎日確認すべき数値はSlackなどの全員が日常的に目にする場所へ掲げたいです。本記事ではBigQueryとSlackを連携させる機能をノーコードで作成する方法を紹介します。従来手法 BigQueryで集計した結果をSlackに通知するためにはGoogle Apps Script（以下、GAS）を用いるやり方が現在では主流です。GASの文法はJavaScriptとほぼ同じであり、普段分析をメインで担当している人たちには馴染みの薄い言語です。また、Cloud Functio
- slack
- BigQuery
- あとで読む
- ZOZO
N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
- 66 users
- blog.nnn.dev
- テクノロジー
- 2022/07/22
はじめに昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。はじめに N予備校における従来のデータの取り扱い現在の取り組み本番環境のデータのBigQueryへの蓄積データ活用のプロトタイピングそのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討分析対象のデータ拡充データの管理体制機械学習技術等の活用おわりに We are hiring! N予備校における従来のデータの取り扱いまず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現
毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management
- 65 users
- speakerdeck.com/shun_oshidari
- テクノロジー
- 2021/03/30
毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management
- bigquery
- あとで読む
一迅プラスのインフラ構成について - BOOK☆WALKER inside
- 64 users
- developers.bookwalker.jp
- テクノロジー
- 2022/06/20
こんにちは。メディアサービス開発部バックエンド開発グループのフサギコ(髙﨑)です。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。本記事では株式会社一迅社さまの公式漫画連載サイトであり、ブックウォーカーが開発保守運用を担当している一迅プラスのサービスインフラの概要についてご紹介したいと思います。もしよければ、前記事のニコニコ漫画のインフラ構成についてならびに読書メーターのインフラ構成についてもご覧ください。一迅プラスについて一迅プラスは株式会社一迅社さまが運営する公式漫画連載サービスです。冒頭試し読みから連載まで、2022/06/10現在で150を超える作品が掲載されています。一迅プラスのトップページこの一迅プラスにおいてブックウォーカーは開発保守運用を担当し
- json
- インフラ
- cloudfront
- アーキテクチャ
- 設計
- あとで読む
- api
- aws
BigQuery で 1 円も溶かさない人の顔 (ZERO BYTE STRUCT を考案した) - Qiita
- 63 users
- qiita.com/na0
- テクノロジー
- 2019/12/05
自分は BigQuery で Extract-Load されたデータを機械学習モデル用に前処理し、テラバイト級の特徴量エンジニアリングを行っています。この記事では、BigQuery のデータ量を一切消費せず、誇張なく 1 円も溶かさない裏技をまとめます。（2019/12/18 現在） ※ パロ元：BigQueryで150万円溶かした人の顔元ネタの方と同じ職場で働くことになりましたので、被せて書いております。この記事では、BigQuery 記事最安値を目指します。速くて安い BigQuery は、データウェアハウスとしても、特徴量エンジニアリングツールとしても優れており、機械学習モデルを用いたサービスを構築する際には、ベースラインとして一候補に挙がるでしょう。 BigQuery の料金オンデマンドクエリを利用する際、極めて重要なのは読み取りデータ量に対して \$5/TB の料金が発生す
- bigquery
- あとで読む
- GCP
- Qiita
- データ
- 学習
- 人
- tips
スプレッドシートを活用して組織横断的にテーブル・カラムの説明文を入力した話 - High Link テックブログ
- 62 users
- tech.high-link.co.jp
- 暮らし
- 2023/04/24
こんにちは。株式会社High Link で業務委託として働いている、データエンジニアのikki（@ikki_mz）です。私たちデータチームでは、「データの民主化」を推進しており、全社員がデータ利活用を行えるように、dbtを用いた分析基盤の整備に取り組んでいます。 tech.high-link.co.jp データの民主化を推進していくにあたり、テーブル・カラムの説明文は非常に重要な役割を占めます。テーブルやカラムが何を意味しているかの説明は、分析をする上ではとても重要です。しかし、このテーブルやカラムの説明はなかなか厄介で、データベースを開発した開発エンジニアとコミュニケーションをとらないと、説明文を正確に書くことができません。そこで私たちは、dbt・スプレッドシートを使って、テーブルやカラムの説明文の入力をするという、組織横断的なプロジェクトを実施しました。背景と課題 dbt de
- dbt
- あとで読む
- database
- 開発
- 仕事
メルペイDataPlatformのCDC DataPipeline | メルカリエンジニアリング
- 62 users
- engineering.mercari.com
- テクノロジー
- 2022/04/21
こんにちは、メルペイ DataPlatformチーム(@rerorero, @darklore, @laughingman7743)です。この記事は、Merpay Tech Openness Month 2022 の14日目の記事です。今日はメルペイ DataPlatformで取り組んでいるCDCパイプラインについて紹介します。 CDCパイプラインとは何か CDCとは Change Data Capture の略称で、データベース内のデータの変更（新規作成、削除、変更など）を追跡するシステムです。データソースで発生した変更は、ニアリアルタイムでデータシンクに反映させることができます。 CDCの実現方法にはいくつかあるのですが、メルペイ DataPlatformでは以下の2つの方法を使ったパイプラインを構築しています。 Striim社のブログがよくまとまっていたので、こちらから引用させ
NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 | IT Leaders
- 61 users
- it.impress.co.jp
- テクノロジー
- 2021/09/07
IT Leaders トップ＞テクノロジー一覧＞ BI／BA／DWH ＞事例ニュース＞ NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 BI／BA／DWH BI／BA／DWH記事一覧へ [事例ニュース] NTTドコモ、データ分析基盤にBigQueryを導入、クエリーの約7割をRedshiftからBigQueryに移行 2021年9月7日(火)日川佳三（IT Leaders編集部）リスト NTTドコモが自社のデータ分析基盤に「Google BigQuery」を導入した。オンプレミスとAWS（Amazon Web Services）で構成していた既存のデータ分析基盤にBigQueryを追加し、2021年7月から本格稼働を開始している。現在、高い処理性能を要求するユースケースなどユーザークエリーの6～7割をBigQ
dbtで始めるデータパイプライン構築〜入門から実践〜
- 60 users
- zenn.dev/dbt_tokyo
- テクノロジー
- 2021/12/02
事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です
- dbt
- BigQuery
- python
- GCP
- あとで読む
- sql
- data
- データ
SQLレクチャー会をチーム内でやっている話 - yasuhisa's blog
- 59 users
- www.yasuhisay.info
- 学び
- 2020/07/30
ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目的はこんな感じです。チーム内のSQL / 分析力の底上げデータの民主化的なやつデータライフサイクルの改善集計側であれこれ無理に頑張るより、入力データを集計側に合わせてもらうほうが圧倒的に省力化されることが多いデータの入力側と集計側の意識を合わせることで、チームのデータ分析のしやすさを高めていきたい毎月、毎期末作っているスプレッドシートの自動化手間を減らしたり、手作業によるミスを減らしたりこのエントリをきっかけに「うちでも似たことやってるけど、この取り組みをやってみたらさらにうまくいったよ」といったことが知れるとうれしいです。背景
- SQL
- 分析
- あとで読む
- study
- 学習
- 勉強
- web
メルカリにおける分析環境整備の取り組み - Speaker Deck
- 59 users
- speakerdeck.com
- テクノロジー
- 2020/08/19
Transcript 1 ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥ੔උͷऔΓ૊Έ גࣜձࣾϝϧΧϦ / JP Data Analyst ӬҪ৳໻ 2 Introduction 3 ! ӬҪ ৳໻ ! גࣜձࣾϝϧΧϦ / JP ! Data Analyst ◦ ෼ੳ؀ڥͷ੔උͳͲΛ୲౰ ࣗݾ঺հ 4 ! ݱঢ় ◦ ͳͥվળʹऔΓ૊Ήͷ͔?  ! ͋Γ͍ͨ࢟ ◦ վળͷαΠΫϧΛճ͍ͨ͠ɻ ! औΓ૊Έ ◦ ϨΨγʔͳσʔληοτΛഇࢭ͢Δɻ ◦ ͦͷͨΊʹɺۀ຿ͱKPIͱج൫ΛηοτͰߟ͑Δɻ ΞδΣϯμ : ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥͷ੔උͷࣄྫ 5 ݱঢ় | ͳͥվળʹऔΓ૊Ήͷ͔? 6 ! ج൫ ◦ BigQuery + Looker ! ن໛ ◦ ΫΤϦ࣮ߦϢʔβʔ਺ 700ਓҎ্/݄ ◦ ࢀর͞Ε͍ͯΔςʔϒϧ਺ 100Ҏ্/݄ ◦ Analyst, PdM, ML, CS, ͳͲ ϝϧΧϦʹ͓͚
- メルカリ
- あとで読む
- データ分析
- data
- データ
- infrastructure
- 分析
- analytics
- 環境
問い合わせ対応の生産性を計測・可視化する - Pepabo Tech Portal
- 59 users
- tech.pepabo.com
- テクノロジー
- 2022/06/13
はじめにこんにちは。CS 室で Customer Ops をやっています @morimai です。わたしが所属する Customer Ops チームは、CS 室の業務に必要なデータ基盤の構築・運用や業務の自動化、データ活用の促進などをメインに活動しています。今回は、CS（カスタマーサポート、カスタマーサクセス）の大前提である「問い合わせ対応の安定運営」を実現し、顧客体験向上に寄与するために、「問い合わせ対応の生産性」を計測・可視化したことについてご紹介します。はじめになぜ問い合わせ対応の生産性を計測・可視化するのかどのように計測・可視化するか問い合わせ対応をするパートナーごとの「問い合わせ対応件数」の収集問い合わせ対応をするパートナーごとの「問い合わせ対応時間」の収集収集したデータをもとに 1 時間あたりの対応件数を自動で毎日計算・可視化 Google Sheets と
dbtを触ってみた感想 - yasuhisa's blog
- 58 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/25
データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている前職でも仕事の一部で使っていた開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較細かいノウハウ手元や本番環境での動作 Argo Workflowとの連携環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える既存
- dbt
- bigquery
- データ基盤
- データ
- SQL
- DWH
- あとで読む
商品数の増加を見据えて商品情報作成処理をPythonからBigQueryに移行した話 | SQLによるバッチ処理で工夫した3つのポイント - MonotaRO Tech Blog
- 58 users
- tech-blog.monotaro.com
- テクノロジー
- 2023/01/24
こんにちは、EC基盤グループ商品情報基盤チームの江村です。今回は私が所属している商品情報基盤チームで構築、運用を行っているシステムについてお話します。モノタロウでは以前から記事になっていますが、検索システムの移行を行っており、現在商品検索ページの裏側の検索システムのSolrからElasticsearchへの切り替え*1が完了しました。私が所属している商品情報基盤チームではElasticsearch、Spannerに入れるための商品情報の作成とSpannerおよび、Spannerからデータを取得するAPIの運用を行っています。今回はその中でもElasticsearch、SpannerのためのBigQueryでの商品情報作成処理について取り上げます。（詳しい検索部分の構成については以前の記事を参照ください）システム移行の背景移行による設計ポイント「MySQL + Python」の処
データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 58 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次株式会社10X 株式会社ビットキー株式会社エブリー株式会社Luup Sansan株式会社株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で
BigQuery MLエンジンとTableauで実現する中古マンション取引額予測シミュレーションの実際 | 株式会社プリンシプル
- 57 users
- www.principle-c.com
- テクノロジー
- 2019/06/27
BigQuery MLによる予測の全体像機械学習を学ぶにあたり、その全体像が提示されていないことが妨げになっている気がしています。筆者も勉強中の身ではありますが、自分自身の学びの整理のためにも本記事を執筆しています。本ブログ記事は、過度に詳細に踏み込まない代わりに、その全体像を提示することで、私と同様の学習者である多くのユーザーがBigQueryのMLエンジンを利用できるようになる（少なくともやってみようと思える）ことを目的としています。全体像は以下の7ステップで説明できます。そのうち、純粋に機械学習周りの技術を使っているのは、3、4、5、6のステップであり、1、2は準備、7は検算です。データの取得と整形整形の完了したデータのアップロードモデルの作成モデルの評価特徴量の調整やモデルのオプションの調整予測値の取り出し検算 ① データの取得と整形機械学習にはある程度まとま
PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
- 57 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/09/24
日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, （休んでいる間のリハビリがてら*1）PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤（ちなみにメジャーリーグです）を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのかどのような処理, どのようなユースケースで動かしているのかこれらをどのようなアーキテクチャで実現したのか以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて（2022/10/15 16:00-16:30）」の予告編でもあります. なので, 後日のトークをお楽しみに
累計参加者8,500名！ #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
- 56 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/24
primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/
- データ基盤
- あとで読む
開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
- 56 users
- www.yasuhisay.info
- テクノロジー
- 2021/01/23
Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。使ってみようとした背景 Dataformについて試してみてどうだったかよかったまだまだこれからっぽいところ & 気になり参考使ってみようとした背景今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも
Amazon AuroraのデータをリアルタイムにGoogle BigQueryに連携してみた / Realtime data linkage from Amazon Aurora to Google BigQuery
- 56 users
- speakerdeck.com/shiozaki
- テクノロジー
- 2021/01/28
Amazon AuroraのデータをリアルタイムにGoogle BigQueryに連携してみた / Realtime data linkage from Amazon Aurora to Google BigQuery
- bigquery
- Aurora
- GCP
- あとで読む
- cloud
- データ
- data
- AWS
- AI
BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
- 56 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2022/01/04
この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。目次この記事の概要目次宣伝実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか最後に
- BigQuery
- SQL
- データ基盤
- データ分析
- DWH
- あとで読む
- GCP
- SaaS
GCP のログ大全2019
- 56 users
- medium.com
- テクノロジー
- 2019/12/10
この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 5 日目の記事です。 GCPにおけるログのライフサイクルGCPにおけるログのライフサイクルは、収集・集約・活用・保管の大きく4つのフェーズに分類できると考えております。まずそれぞれのフェーズの中でどのようなことができるのか、皆様に知っておいておきたいことについて説明します。収集フェーズログを発生させる元のシステムから集めてくるフェーズです。ログの発生元がどこであれ、最終的には Stackdriver の Logging API にログを送ることで収集を行います。もちろんGCPのサービスで発生するログは自動的に収集されますが、GCP上のユーザアプリケーションのログや、オンプレミスや他クラウド環境からのログは、Logging エージェントかLoggin APIの
- GCP
- logging
- あとで読む
- cloud
- article
dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
- 55 users
- speakerdeck.com/10xinc
- テクノロジー
- 2022/04/07
DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。
- dbt
- データ
- あとで読む
- sql
- ツール