[3ページ] dwhの人気記事 225件 - はてなブックマーク

81 - 120 件 / 225件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dwhの検索結果81 - 120 件 / 225件

一週間で構築できる！お手軽データウェアハウス
- 28 users
- k11i.biz
- テクノロジー
- 2021/12/17
Legalscape (リーガルスケープ) アドベントカレンダー 2021 の 12/16 (木) のエントリです。本日のエントリは、突貫工事的に一週間程度1で構築したデータウェアハウスについてお送りいたします。データウェアハウス構築前夜 2021 年 6 月に予定をしている Legalscape 正式版リリースが刻々と迫り、みなが慌ただしく仕事をしている 5 月下旬、ビジネス上の様々な理由からユーザのアクティビティログを保持して分析・集計するデータ基盤、すなわちデータウェアハウスが必要になりました。 Legalscape ではそれまで、プロダクト上でのユーザの行動に伴って発生するアクティビティログはすべて (書籍の全文検索に用いているものと同じ) Elasticsearch クラスタにインデックスしていました。アクティビティログを利用する際は、このインデックスに対して Kibana
- データ
- あとで読む
スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
- 28 users
- speakerdeck.com/recruitengineers
- テクノロジー
- 2022/01/31
2022/01/27_スタディサプリのデータ基盤を支える技術 2022 －RECRUIT TECH MEET UP #3－での、橘高の講演資料になります
BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog
- 28 users
- www.yasuhisay.info
- テクノロジー
- 2022/03/07
背景どうやって異常を検知するか BigQuery MLでの異常検知検知できるモデルの種類共通設定データの前準備モデルの学習モデルを元にスロット使用量が異常に増加していないか予測する所感背景 BigQueryはオンデマンドとフラットレート(定額料金)があるオンデマンドはスキャン量がお金に直結するため、INFORMATION_SCHEMA.JOBS_BY_*などを使ってクエリ警察をしている方も多いはず INFORMATION_SCHEMAに代表されるデータ管理に役に立つ現場のノウハウを最近会社のTech Blogに書いたので、そちらも見てね一方で、フラットレートに関しては定額使いたい放題のプランであるため、オンデマンドよりはクエリ警察をしていない場合もある見れるなら見たいが、どうしても支出に直結するオンデマンドを優先して見てしまいがち。工数も限られているが、あまりに自由
TechCrunch | Startup and Technology News
- 26 users
- jp.techcrunch.com
- テクノロジー
- 2019/08/16
A data protection taskforce that’s spent over a year considering how the European Union’s data protection rulebook applies to OpenAI’s viral chatbot, ChatGPT, reported preliminary conclusions Friday. The top-line takeaway…
- あとで読む
BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS
- 26 users
- overs.zigexn.co.jp
- テクノロジー
- 2022/12/01
目次はじめに自己紹介内容概要基本設計 TCVのビジネスモデル施策内容システム構成フェーズ１: とりあえずAutoMLを使ってみるフェーズ２: 目的変数を変えるフェーズ３: BigQuery MLの導入による検証高速化フェーズ４: 国別フェーズ５: 回帰ではなく分類へフェーズ６とその先へおわりにはじめに自己紹介じげん開発Unitデータ分析基盤チームの伊崎です。開発Unitは特定の事業部に所属しない全社横断組織です。その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。プライベートでKaggleに参加し、銅メダルを獲得した経験があります（最近は活動
Cloud Pub/SubでBigQueryの「スケジュールされたクエリ」の結果をSlack通知する
- 25 users
- techblog.gmo-ap.jp
- テクノロジー
- 2021/07/06
こんにちは。GMOアドマーケティングのH.Tと申します。目新しいネタではないのですが、Cloud Pub/SubでBigQueryの「スケジュールされたクエリ」の結果をSlack通知してみたのでご紹介いたします。きっかけ BigQueryの「スケジュールされたクエリ」が便利で使っています。「スケジュールされたクエリ」はクエリ失敗時の通知オプションとしてメールかPub/Subから選べるのですが、システム通知をSlackで受け取りたいのでCloud Pub/Sub→Slack通知の連携を試してみました。システム連携概要以下図のとおり、BigQuery→Cloud Pub/Sub→Cloud Functions→Slackという形で連携します。設定の流れ 1.まず、受け取りたいslackのwebhook urlを用意しておきます。 (slack側の準備は本記事では割愛させていただきま
Lookerでショップのサービス活用カルテを作成した話 - BASEプロダクトチームブログ
- 24 users
- devblog.thebase.in
- テクノロジー
- 2021/12/08
この記事は BASE アドベントカレンダーと Looker アドベントカレンダー 8 日目の記事です。はじめに BASE BANK 株式会社にて事業開発を担当している猪瀬 (@Masahiro_Inose)です。私達のチームでは、BASE ショップを運営しているショップオーナー様が簡単に資金調達をできる「YELL BANK」というサービスの開発・運営しています。 thebase.in 今回の記事は以下の二部構成となります。前半部分は私からLookerという BI ツールを使って、サービス利用者の利用状況や関連情報を一元的に把握できる、「ショップカルテ」なるものを作成したことについて紹介します。後半部分は Looker で扱いやすくするためのデータの加工を担当した永野(@glassmonekey)から、データ基盤周りやデータ加工の工夫した部分について解説します。ちなみに過去の記事の
Flex Slotsを用いたBigQueryのコストパフォーマンス改善と運用 - ZOZO TECH BLOG
- 24 users
- techblog.zozo.com
- テクノロジー
- 2021/07/12
こんにちは、SRE部の谷口（case-k）です。私たちのチームではデータ基盤の開発や運用をしています。1年ほど前からBigQueryのコストパフォーマンス改善を目的にFlex Slotsを導入しています。本記事ではFlex Slotsの導入効果や運用における注意点、ワークフロー設計についてご紹介します。BigQueryのコストやパフォーマンスで課題を抱えているチームや管理業務を行っている方の参考になれば幸いです。 BigQuery Reservationsとはコミットメント予約割り当てなぜFlex Slotsを使う必要があるのか Flex Slotsを用いたコストパフォーマンス改善設計管理プロジェクトの作成月次コミットメントの活用 Flex Slotsの活用とワークフロー設計ワークフロータスク「コミットメントの購入」タスク「コミットメントの削除」タスク「予約」タスク
RedshiftとAurora、知らないうちにどんどん進化するAWSの2つのデータサービス
- 24 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/27
こんにちは、アイティメディア＠IT編集部の三木です。これから「ほぼ月刊AWS」という連載をお届けします。パブリッククラウド、特にAmazon Web Services（AWS）に関しては情報があふれています。でも、次々に新しい発表が行われ、全体的な把握が難しくなってしまうことがよくあります。また、いったん発表された製品が急速に進化し、綿密にフォローしていないと取り残されてしまうことがあります。そこでこの連載では、AWSに関するさまざまな発表の「文脈」をお伝えしようと考えています。第1回は、アマゾンウェブサービスジャパン（以下、AWSジャパン）が2020年7月20日に行った、2020年4～7月におけるAWSサービスの最新情報説明から、主にエッジとデータ関連サービス、既存システムのクラウド移行に関する新たな動きについてまとめます。「エッジ」に向けた発表が目立つAWS、でも結局「エッジ」とは
- AWS
- あとで読む
【参加レポート】Data Platform Meetup vol.2の発表内容まとめ＆最近のDP界隈の話題 - フリーランチ食べたい
- 23 users
- blog.ikedaosushi.com
- テクノロジー
- 2019/12/02
本日、開催されたData Platform Meetup vol.2に参加してきました。発表の内容や関連するリンクをまとめました。 data-platform-meetup.connpass.com 開催日時: 2019年12月2日会場: Pixivさんオフィス Data Platform Meetupとは connpassページからの引用です。データプラットフォームを設計/開発/利用している方（データエンジニア/データアナリスト/データサイエンティスト/機械学習エンジニア等）がノウハウを発表したりカジュアルに情報交換できるイベントです。第一回は9月に開催され、定員の120名を大きく超える応募があったように大盛況でした。【増枠】Data Platform Meetup - connpass 個人的にはeurekaの鉄本さんの発表資料が自分の状況に当てはまることが多く、大変勉強になり
- 機械学習
- あとで読む
Amazon Redshift Serverless 本番環境に向けた「設定をカスタマイズ」による環境構築手順 | DevelopersIO
- 21 users
- dev.classmethod.jp
- テクノロジー
- 2022/08/08
データアナリティクス事業本部コンサルティングチームの石川です。「デフォルト設定を使用」で構築するのであれば、ワンクリック3分で構築可能です。しかし、本番環境のように任意のVPCに構築するには「設定をカスタマイズ」による環境構築が必要です。 1つ目のRedshift Serverless環境の構築は、「デフォルト設定を使用」を用いた環境構築もしくは「設定をカスタマイズ」による環境構築のいずれかです。2つ目以降は、下記のサーバーレスダッシュボードの[ワークグループを作成]から環境構築します。この手順は、「設定をカスタマイズ」とほぼ同じで、RPUの設定が追加されたものとそれほど変わりません。本日は、Redshift Serverlessを構築するための設定項目の整理して、「設定をカスタマイズ」による環境構築する手順について解説します。環境構築するための設定項目最初にRedshift S
- aws
- Redshift
- serverless
OLAPデータベースにおける高速化の技術 - PLAID engineer blog
- 21 users
- tech.plaid.co.jp
- テクノロジー
- 2024/03/05
こんにちは、エンジニアのkomukomoです。フリーランスとしてプレイドでお仕事させていただいています。これは社内勉強会をブログ化したものです。この記事では、OLAPデータベースにおいて分析クエリを高速化するために使われている技術について説明します。また、データベース使用者がどう使うかというよりはデータベース自体の内部の話にフォーカスしています。 -----------------------
- db
- あとで読む
- database
- article
GitHub - chdb-io/chdb: chDB is an embedded OLAP SQL Engine 🚀 powered by ClickHouse
- 20 users
- github.com/chdb-io
- テクノロジー
- 2023/10/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
- 20 users
- speakerdeck.com/kakehashi
- テクノロジー
- 2024/01/17
Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
BigQuery データキャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas
- 20 users
- speakerdeck.com/sansan_randd
- テクノロジー
- 2024/05/25
■イベント #bq_sushi #19 https://bq-sushi.connpass.com/event/317348/ ■発表者技術本部研究開発部 Architectグループ中根洋平 ■研究開発職採用情報 https://media.sansan-engineering.com/randd ■Sansan Tech Blog https://buildersbox.corp-sansan.com/
- 開発
- あとで読む
INFORMATION_SCHEMAを用いたBigQueryのストレージ無駄遣い調査 - ZOZO TECH BLOG
- 19 users
- techblog.zozo.com
- テクノロジー
- 2021/11/24
こんにちは、『地球の歩き方ムー』創刊のニュースに心を踊らせている、データ基盤ブロックの塩崎です。本記事では、データ基盤の管理者としてBigQueryのストレージコストの削減に取り組んだ事例を紹介します。 BigQuery費用はクエリ費用だけではない ZOZOのデータ基盤として利用されているBigQueryは、非常にパワフルなDWH（Data WareHouse）です。しかし、それ故に利用者の意図しないところで費用が高騰することもしばしば発生します。よく問題になるのはクエリ費用の高騰であり、以下のQiita記事はBigQuery利用者の中でも有名です。 qiita.com このクエリ費用の高騰に対し、我々データ基盤ブロックはこれまでに、いくつもの方法で対処してきました。具体的な取り組みの一部は以下の記事で紹介しているので、併せてご覧ください。 techblog.zozo.com techb
Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
- 19 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/14
Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います！新機能が発表されたセッションとその内容を簡単に紹介していきます！気になる内容があった方は是非、YouTubeの動画を確認してみてください。注意点本記事の内容にBigQuery ML関連のサービスは含まれていません。不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,
BigQueryでUplift Modeling分析｜Dentsu Digital Tech Blog
- 19 users
- note.com/dd_techblog
- テクノロジー
- 2020/06/05
電通デジタルで機械学習エンジニアをしている今井です。本記事では、BigQueryでUplift Modeling分析を行うための方法について紹介します。広告効果を上げるためには？広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン（CV）の差である、と言えます。介入が無作為に割り当てられるランダム化比較試験（randomized controlled trial, RCT）において、広告効果は平均処置効果（average treatment effect, ATE）として推定できます。詳しくは過去記事[1]にまとめています。 Uplift Modelingは「広告施策において、その効果を上げるためには誰を広告配信対象とするべきか」を推定するための方法です。ユーザーの特徴量を 𝐱𝑖 とすると、Uplift Scoreは下記のように算出されます。 Up
- BigQuery
- uplift
- HotEntry
チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
- 18 users
- engineer.retty.me
- テクノロジー
- 2019/12/24
昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。コミュニティの盛り上がりを感じる良いミートアップだったと思います。この記事では発表ではお話しできなかったことの補足も含め、我々のデータ基盤を取り巻く構成とその背景となる考え方について紹介したいと思います。誰のためのデザイン？データの民主化と基盤開発 Rettyにおけるデータウェアハウジングデータ基盤開発の標準化効果的なプラクティスの導入データウェアハウシングのための実践的なレイヤ構成データ置き場
- あとで読む
ディメンショナル・モデリング
- 18 users
- zenn.dev/pei0804
- テクノロジー
- 2020/12/14
VOYAGE GROUP Techlog Advent Calendar 2020 13日目ディメンショナル・モデリングとはディメンショナル・モデリング Wikipediaには以下のような説明がある。 Dimensional Modeling (DM) is a data structure technique optimized for data storage in a Data warehouse. データウェアハウスにデータを格納するために、最適化されたデータ構造の手法。背景情報システムは2つの大きなカテゴリに分類される。1つはビジネスプロセスの実行支援する業務システム、もう1つはビジネスプロセスを分析支援する分析システム。それぞれ根本的に異なる目的があるため、異なる原則に基づき設計が進化してきた。業務システムの目的は、ビジネスプロセスで発生した重要な事実や行動を記録する
Amazon Aurora, Redshift, DynamoDBのワークロード別性能を比較する - Qiita
- 17 users
- qiita.com/RyoOkaya
- テクノロジー
- 2020/06/29
はじめに AWSが提供する代表的なDBサービスには、クラウド前提で設計されたRDBのAmazon Aurora、データ分析特化型RDBのAmazon Redshift、ワイドカラム型DB(NoSQL)のAmazon DynamoDB1があります。AWSの各DBサービスの使い分けについては、一般的には概ね業務系システムのDBにはAuroraやDynamoDB、分析系システムのDBにはRedshiftを利用すれば良いとされていますが2、その根拠について定量的に確かめてみたいと思ったので、実際にOLTP/OLAPワークロード別の負荷をかけて各DBサービスの性能特性の違いについて確認してみました。 ※実際のシステム性能は様々な条件により変動します。あくまでも参考情報の一つとして捉えていただきますようお願いします。前提知識まず前提となる考え方として、OLTP/OLAPワークロードについて概説し
- あとで読む
今こそ注目！DWHにおけるデータモデリングとその歴史
- 17 users
- www.nttdata.com
- テクノロジー
- 2022/04/07
近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ
- DWH
- あとで読む
Cloud Dataflow で Cloud SQLからBigQueryにサーバーレスにデータ連携する - suusan2号の戯れ
- 17 users
- suzan2go.hatenablog.com
- テクノロジー
- 2019/07/04
取引先で、Cloud SQL(Postgres)からBigQueryにアプリケーションのデータを連携させたいという話があって、いろいろ調べたのでまとめる。最初はEmbulkとか使えばいいんかなと思ったけど、基本サーバーサイドはGAEしか使ってない状況でEmbulkをどこで動かそうか…って感じだったので、GCPのマネージドサービスであるCloud Dataflowを活用することにした。*1 アプリケーションの環境は以下のような感じ。スマホアプリを提供している Firebase Auth / Analyticsを使用している Analyticsの情報はBigQueryに連携させている APIサーバはGAE上にたっている DBはCloud SQL(Postgres)を使用している GCPのデータ処理関連のマネージドサービスについて GCP上でデータをBigQueryに投入しようと思ってグーグ
- あとで読む
RedshiftのMERGE SQL commandがGAになりましたね。 - KAYAC engineers' blog
- 16 users
- techblog.kayac.com
- テクノロジー
- 2023/04/27
SREチームの池田です。今回はAmazon RedshiftのMERGE SQL commandがGAになりましたので、MERGE SQL commandの何が嬉しいのかを話をしたいと思います。 SRE連載 4月号になります。 aws.amazon.com 3行でまとめ RedshiftのMERGE SQL commandがGAになりました。 Bulk UpsertをSQL1文で実行できるものです。以前と比べるとスッキリします。複数のデータソースから算出されるレポートの更新に使うと嬉しい。以前のRedshiftにおけるBulk Upsertについてご存知かもしれませんが、『なかったらInsert、あったらUpdate』を通称Upsertといいます。 Redshiftにおける、Upsertのやり方ですがMERGE SQL commandが出る前のRedshiftでは以下のドキュメン
dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
- 16 users
- tech.timee.co.jp
- テクノロジー
- 2024/03/18
はじめに課題感・背景使用しているBIツールについて BIツールの使用ボリューム感についてやったこと：概要やったこと：詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと今後の発展保守運用の設計カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめにこんにちは。okodooonです！！データ基盤を参照したアウトプットが社内に溢れかえっていませんか？弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。そんな折
- dbt
- ツール
Amazon Redshift 新しい圧縮エンコーディング『AZ64』とLZO、ZSTDの徹底比較 | DevelopersIO
- 15 users
- dev.classmethod.jp
- テクノロジー
- 2019/11/11
Amazon Redshift 新しい圧縮エンコーディング『AZ64』とLZO、ZSTDの徹底比較これまでは主に高速なLZO、高圧縮なZSTDの2つ圧縮エンコーディングをノードタイプやワークロードに応じて選択していましたが、新たに追加されたAZ64は高速と高圧縮な特性を兼ね備えています。今回は新たに追加されたAZ64について検証したいと思います。 Amazon Redshift が最適化されたストレージと高クエリパフォーマンス向けの新しい圧縮エンコーディングである AZ64 をリリース以下、本文の抜粋です。高い圧縮率と改善されたクエリパフォーマンスの達成を目的として設計された独自の圧縮エンコーディングである AZ64 が利用可能になりました。革新的な AZ64 アルゴリズムは、データ値の小さなグループを効率的に圧縮し、SIMD 命令を活用してデータを並列処理します。このエンコード
- DWH
- Redshift
- aws
- あとで読む
- クラウド
search and community in cookpad 2019
- 15 users
- speakerdeck.com/penguinco
- テクノロジー
- 2019/09/26
クックパッドのレシピ検索とレシピコミュニティ cookpad product kitchen #4の発表資料です。
- cookpad
- あとで読む
- 検索
- 資料
- レシピ
BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside
- 14 users
- developers.bookwalker.jp
- テクノロジー
- 2023/06/21
こんにちは、メディアサービス開発部サービス分析課の佐藤です。ブックウォーカー社で全社横断のデータ基盤を構築しています。今年の3月末にBigQueryの新料金体系、BigQuery Editionsが発表されました。これに伴い来月の7月5日より従来の定額モデルが終了し、オンデマンド料金モデルも25％の値上げとなります。 cloud.google.com これまでブックウォーカー社ではスキャンサイズのバーストを防ぐためにGoogle Cloud（GCP）の「割り当てと上限」を利用し、BigQueryにおいてプロジェクト全体のスキャンサイズとユーザーごとのスキャンサイズを制限していました。これはプロジェクト全体、あるいはユーザーが設定したスキャンサイズを上回るとそれ以上の処理を停止させるという制限です。 Webサービス開発に関わる分析業務ではGoogleAnalyticsのエクスポートログやW
- BigQuery
- あとで読む
Snowflakeは何がすごくて何ができるのか　ITアーキテクトが見た技術的特性と可能性
- 14 users
- www.itmedia.co.jp
- テクノロジー
- 2021/09/10
Snowflakeは何がすごくて何ができるのか　ITアーキテクトが見た技術的特性と可能性：Snowflakeで何ができる？　基礎情報解説（1）（1/2 ページ）近年データ活用基盤を語る際、話題に上ることが増えたソリューションの1つにSnowflakeが挙げられます。単なるクラウドDWHではない先進的な設計思想やデータ処理の特徴に加え、既存の企業情報システムの課題解消にどう生かせるかを見ていきます。
- DWH
- database
- aws
- it
Apache Kafka が生まれた理由
- 14 users
- kenta-kosugi.medium.com
- テクノロジー
- 2020/12/17
今データを使って何かした方がいいと考えているお客様は多いのではないかと思います。Red Hat の金融セミナーでもこの手のお話があり、マネーソーの登壇者が以下の話をしていました。義務化されるものがある一方で、オープンバンキングを実装するための様々なアプローチがあるのですが、一貫したテーマが一つあることに気付きました。〜略〜今や誰もが同じデータへアクセスすることが可能で勘定系システムの中にある貴重なデータに基づいて活動できるのは私だけではありません。ではどうしたら差別化できるでしょうか。〜略〜その答えとは次のようなものです。データを使っていますぐ何かした方がよい。〜略〜データに基づく活動が次の未開拓領域です。 ETL を使っていたときの LinkedIn の課題前提 : アクテビティデータActivity data is one of the newer ingredients i
Back at my old job in ~2016, we built a cheap homegrown data warehouse via Postg... | Hacker News
- 14 users
- news.ycombinator.com
- テクノロジー
- 2022/05/25
Back at my old job in ~2016, we built a cheap homegrown data warehouse via Postgres, SQLite and Lambda.Basically, it worked like this: - All of our data lived in compressed SQLite DBs on S3. - Upon receiving a query, Postgres would use a custom foreign data wrapper we built. - This FDW would forward the query to a web service. - This web service would start one lambda per SQLite file. Each lambda
- serverless
- lambda
- database
- data
- development
BigQuery のデータセットとテーブルを整理整頓する - キカガクプラットフォームブログ
- 13 users
- tech.kikagaku.co.jp
- テクノロジー
- 2022/05/27
前提状況整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理結論おわりにこんにちは、開発事業部で PM をしている丸山です。キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。前提本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。扱うデータソース
「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside
- 13 users
- inside.pixiv.blog
- 学び
- 2023/01/27
はじめにアドプラットフォーム事業部でアナリティクスエンジニアをしているucchi-です。ピクシブは、2022年11月24日に「pixiv Ads」という広告ネットワークをリリースしました。広告主は、pixivに広告を少額予算から簡単に出稿できます。 ads.pixiv.net pixiv Adsのデータ基盤では、大きく分けて以下の課題と向き合っています。鮮度：広告の配信状況をリアルタイムに見たいクライアントは、ユーザーに広告を届けるため、常にお金を払い続けます。広告配信条件を誤ると、それだけお金を無駄にしてしまうため、少なくとも数十分以内に配信状況を確認できる必要があります精度：広告の支払い金額は1円の誤差も許さないクライアントは、広告の配信ログから集計した配信実績に基づきお金を支払います。請求金額が絡むため、非常に高い精度のデータ品質が求められますこれらの課題に対し、データ
Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
- 12 users
- www.m3tech.blog
- テクノロジー
- 2021/05/26
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか検索を監視して改善サイクルを回したい各種アルゴリズムに利用できるデータを取得したいデータ分析に利用したいデータアーキテクチャを書き出すイベントとデー
GitHub - duckdb/duckdb: DuckDB is an in-process SQL OLAP Database Management System
- 12 users
- github.com/duckdb
- テクノロジー
- 2020/02/08
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- RDB
- database
- python
Apache Iceberg - Apache Iceberg
- 11 users
- iceberg.apache.org
- テクノロジー
- 2020/07/02
What is Iceberg? Iceberg is a high-performance format for huge analytic tables. Iceberg brings the reliability and simplicity of SQL tables to big data, while making it possible for engines like Spark, Trino, Flink, Presto, Hive and Impala to safely work with the same tables, at the same time. Expressive SQL Iceberg supports flexible SQL commands to merge new data, update existing rows, and perfor
- Iceberg
- DWH
「Databricks とは？何ができるか」新入社員が感じたイケてる機能１０選 - Qiita
- 10 users
- qiita.com/kohei-arai
- テクノロジー
- 2022/08/19
目次はじめに背景と目的 Databricksとは何か機能紹介共通データエンジニアリング機械学習 Databricks SQL おわりにはじめにこんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします！背景と目的皆様の中には Databricks という会社に馴染みがない方も多いと思います。米国カリフォルニア州に本社が
- Databricks
ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
- 10 users
- jmty-tech.hatenablog.com
- テクノロジー
- 2020/09/30
ジモティーiOSチーム所属のエンジニアの橋本です。普段はiOSアプリの開発に従事していますが､ Webやネイティブアプリ（iOS/Android）の各種計測データの収集や社内への展開などの業務にも従事しています。今回は､自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ（iOS/Android）が生み出す様々なデータは収集･蓄積・加工 ▶ 分析･活用という過程を経るわけですが､その利用目的は大きくは2つです。ジモティーというサービスの現状がどうなのか､サービスのコンディションの善し悪しを判断するための利用ユーザーの利用状況の傾向を把握し､次の打ち手を決める判断材料としての利用この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。エンジニア
- aws
【禁断の比較？】SnowflakeとTreasure Dataを比べてみました
- 9 users
- knowledge.insight-lab.co.jp
- テクノロジー
- 2021/08/04
ここ最近「SnowflakeとTreasure Dataの違いを教えてほしい」といった質問を頂くことが増えています。どちらもクラウドDWH(データウェアハウス)や、クラウドデータプラットフォームと呼ばれるように、競合するプロダクトですね。クラウドのスケールメリットを活かしている点、ユーザビリティの高いGUIが用意されている点など、共通点が多いです。 2011年に米国で日本人が創業し、 2013年から今日に至るまで日本国内での普及を着実に進めていったTreasure Data。 2012年に米国で元Oracle出身者が創業し、グローバルでの評価を確固たるものとし、満を持して2019年に日本法人を設立したSnowflake。グローバルでの知名度は圧倒的にSnowflakeの方が高いのですが日本国内での歴史はまだ浅く、国内においてはTreasure Dataの方が知名度が高く
ダンボールワンのデータ分析基盤〜dbt導入してみた〜
- 9 users
- zenn.dev/raksul_nakada
- テクノロジー
- 2022/05/11
背景ダンボールワンがラクスルグループに加わり、データ分析基盤を整備したのでその事例紹介ラクスルグループの中で、はじめて dbt を導入してとても良かったので、その部分を中心に紹介整備前はサービスDBの Read Replica に Redash から接続してデータ分析していた Redash で SQL を書いて分析できるメンバーが限られるため、SQL を書けないビジネス側メンバーも自分で分析できる環境が欲しかった（利用者は30名程度）データ分析基盤構成 Data Warehouse Data Warehouse は BigQuery を採用ラクスルグループでは Snowflake を採用しているケースもあるが、今回は Googleスプレッドシートや Googleデータポータルといった BI環境との接続性を重視 BI BI環境は Googleスプレッドシートのコネクテッドシート