並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 225件

新着順 人気順

dwhの検索結果81 - 120 件 / 225件

  • 一週間で構築できる! お手軽データウェアハウス

    Legalscape (リーガルスケープ) アドベントカレンダー 2021 の 12/16 (木) のエントリです。 本日のエントリは、突貫工事的に一週間程度1で構築したデータウェアハウスについてお送りいたします。 データウェアハウス構築前夜 2021 年 6 月に予定をしている Legalscape 正式版リリースが刻々と迫り、みなが慌ただしく仕事をしている 5 月下旬、ビジネス上の様々な理由からユーザのアクティビティログを保持して分析・集計するデータ基盤、すなわちデータウェアハウスが必要になりました。 Legalscape ではそれまで、プロダクト上でのユーザの行動に伴って発生するアクティビティログはすべて (書籍の全文検索に用いているものと同じ) Elasticsearch クラスタにインデックスしていました。アクティビティログを利用する際は、このインデックスに対して Kibana

      一週間で構築できる! お手軽データウェアハウス
    • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

      2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

        スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
      • BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog

        背景 どうやって異常を検知するか BigQuery MLでの異常検知 検知できるモデルの種類 共通設定 データの前準備 モデルの学習 モデルを元にスロット使用量が異常に増加していないか予測する 所感 背景 BigQueryはオンデマンドとフラットレート(定額料金)がある オンデマンドはスキャン量がお金に直結するため、INFORMATION_SCHEMA.JOBS_BY_*などを使ってクエリ警察をしている方も多いはず INFORMATION_SCHEMAに代表されるデータ管理に役に立つ現場のノウハウを最近会社のTech Blogに書いたので、そちらも見てね 一方で、フラットレートに関しては定額使いたい放題のプランであるため、オンデマンドよりはクエリ警察をしていない場合もある 見れるなら見たいが、どうしても支出に直結するオンデマンドを優先して見てしまいがち。工数も限られている が、あまりに自由

          BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog
        • TechCrunch | Startup and Technology News

          A data protection taskforce that’s spent over a year considering how the European Union’s data protection rulebook applies to OpenAI’s viral chatbot, ChatGPT, reported preliminary conclusions Friday. The top-line takeaway…

            TechCrunch | Startup and Technology News
          • BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS

            目次 はじめに 自己紹介 内容概要 基本設計 TCVのビジネスモデル 施策内容 システム構成 フェーズ1: とりあえずAutoMLを使ってみる フェーズ2: 目的変数を変える フェーズ3: BigQuery MLの導入による検証高速化 フェーズ4: 国別 フェーズ5: 回帰ではなく分類へ フェーズ6とその先へ おわりに はじめに 自己紹介 じげん開発Unitデータ分析基盤チームの伊崎です。 開発Unitは特定の事業部に所属しない全社横断組織です。 その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。 私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。 プライベートでKaggleに参加し、銅メダルを獲得した経験があります(最近は活動

              BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS
            • Cloud Pub/SubでBigQueryの「スケジュールされたクエリ」の結果をSlack通知する

              こんにちは。GMOアドマーケティングのH.Tと申します。 目新しいネタではないのですが、Cloud Pub/SubでBigQueryの「スケジュールされたクエリ」の結果をSlack通知してみたのでご紹介いたします。 きっかけ BigQueryの「スケジュールされたクエリ」が便利で使っています。 「スケジュールされたクエリ」はクエリ失敗時の通知オプションとしてメールかPub/Subから選べるのですが、システム通知をSlackで受け取りたいのでCloud Pub/Sub→Slack通知の連携を試してみました。 システム連携概要 以下図のとおり、BigQuery→Cloud Pub/Sub→Cloud Functions→Slackという形で連携します。 設定の流れ 1.まず、受け取りたいslackのwebhook urlを用意しておきます。 (slack側の準備は本記事では割愛させていただきま

                Cloud Pub/SubでBigQueryの「スケジュールされたクエリ」の結果をSlack通知する
              • Lookerでショップのサービス活用カルテを作成した話 - BASEプロダクトチームブログ

                この記事は BASE アドベントカレンダーと Looker アドベントカレンダー 8 日目の記事です。 はじめに BASE BANK 株式会社にて事業開発を担当している猪瀬 (@Masahiro_Inose)です。 私達のチームでは、BASE ショップを運営しているショップオーナー様が簡単に資金調達をできる「YELL BANK」というサービスの開発・運営しています。 thebase.in 今回の記事は以下の二部構成となります。 前半部分は私からLookerという BI ツールを使って、サービス利用者の利用状況や関連情報を一元的に把握できる、「ショップカルテ」なるものを作成したことについて紹介します。 後半部分は Looker で扱いやすくするためのデータの加工を担当した永野(@glassmonekey)から、データ基盤周りやデータ加工の工夫した部分について解説します。 ちなみに過去の記事の

                  Lookerでショップのサービス活用カルテを作成した話 - BASEプロダクトチームブログ
                • Flex Slotsを用いたBigQueryのコストパフォーマンス改善と運用 - ZOZO TECH BLOG

                  こんにちは、SRE部の谷口(case-k)です。私たちのチームではデータ基盤の開発や運用をしています。1年ほど前からBigQueryのコストパフォーマンス改善を目的にFlex Slotsを導入しています。 本記事ではFlex Slotsの導入効果や運用における注意点、ワークフロー設計についてご紹介します。BigQueryのコストやパフォーマンスで課題を抱えているチームや管理業務を行っている方の参考になれば幸いです。 BigQuery Reservationsとは コミットメント 予約 割り当て なぜFlex Slotsを使う必要があるのか Flex Slotsを用いたコストパフォーマンス改善設計 管理プロジェクトの作成 月次コミットメントの活用 Flex Slotsの活用とワークフロー設計 ワークフロー タスク 「コミットメントの購入」タスク 「コミットメントの削除」タスク 「予約」タスク

                    Flex Slotsを用いたBigQueryのコストパフォーマンス改善と運用 - ZOZO TECH BLOG
                  • RedshiftとAurora、知らないうちにどんどん進化するAWSの2つのデータサービス

                    こんにちは、アイティメディア@IT編集部の三木です。これから「ほぼ月刊AWS」という連載をお届けします。パブリッククラウド、特にAmazon Web Services(AWS)に関しては情報があふれています。でも、次々に新しい発表が行われ、全体的な把握が難しくなってしまうことがよくあります。また、いったん発表された製品が急速に進化し、綿密にフォローしていないと取り残されてしまうことがあります。そこでこの連載では、AWSに関するさまざまな発表の「文脈」をお伝えしようと考えています。 第1回は、アマゾンウェブサービスジャパン(以下、AWSジャパン)が2020年7月20日に行った、2020年4~7月におけるAWSサービスの最新情報説明から、主にエッジとデータ関連サービス、既存システムのクラウド移行に関する新たな動きについてまとめます。 「エッジ」に向けた発表が目立つAWS、でも結局「エッジ」とは

                      RedshiftとAurora、知らないうちにどんどん進化するAWSの2つのデータサービス
                    • 【参加レポート】Data Platform Meetup vol.2の発表内容まとめ&最近のDP界隈の話題 - フリーランチ食べたい

                      本日、開催されたData Platform Meetup vol.2に参加してきました。発表の内容や関連するリンクをまとめました。 data-platform-meetup.connpass.com 開催日時: 2019年12月2日 会場: Pixivさんオフィス Data Platform Meetupとは connpassページからの引用です。 データプラットフォームを設計/開発/利用している方(データエンジニア/データアナリスト/データサイエンティスト/機械学習エンジニア等)がノウハウを発表したりカジュアルに情報交換できるイベントです。 第一回は9月に開催され、定員の120名を大きく超える応募があったように大盛況でした。 【増枠】Data Platform Meetup - connpass 個人的にはeurekaの鉄本さんの発表資料が自分の状況に当てはまることが多く、大変勉強になり

                        【参加レポート】Data Platform Meetup vol.2の発表内容まとめ&最近のDP界隈の話題 - フリーランチ食べたい
                      • Amazon Redshift Serverless 本番環境に向けた「設定をカスタマイズ」による環境構築手順 | DevelopersIO

                        データアナリティクス事業本部コンサルティングチームの石川です。「デフォルト設定を使用」で構築するのであれば、ワンクリック3分で構築可能です。 しかし、本番環境のように任意のVPCに構築するには「設定をカスタマイズ」による環境構築が必要です。 1つ目のRedshift Serverless環境の構築は、「デフォルト設定を使用」を用いた環境構築 もしくは「設定をカスタマイズ」による環境構築のいずれかです。2つ目以降は、下記のサーバーレスダッシュボードの[ワークグループを作成]から環境構築します。この手順は、「設定をカスタマイズ」とほぼ同じで、RPUの設定が追加されたものとそれほど変わりません。 本日は、Redshift Serverlessを構築するための設定項目の整理して、「設定をカスタマイズ」による環境構築する手順について解説します。 環境構築するための設定項目 最初にRedshift S

                          Amazon Redshift Serverless 本番環境に向けた「設定をカスタマイズ」による環境構築手順 | DevelopersIO
                        • OLAPデータベースにおける高速化の技術 - PLAID engineer blog

                          こんにちは、エンジニアのkomukomoです。フリーランスとしてプレイドでお仕事させていただいています。これは社内勉強会をブログ化したものです。この記事では、OLAPデータベースにおいて分析クエリを高速化するために使われている技術について説明します。 また、データベース使用者がどう使うかというよりはデータベース自体の内部の話にフォーカスしています。 -----------------------

                            OLAPデータベースにおける高速化の技術 - PLAID engineer blog
                          • GitHub - chdb-io/chdb: chDB is an embedded OLAP SQL Engine 🚀 powered by ClickHouse

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - chdb-io/chdb: chDB is an embedded OLAP SQL Engine 🚀 powered by ClickHouse
                            • Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks

                              Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks

                                Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
                              • BigQuery データ キャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas

                                ■イベント #bq_sushi #19 https://bq-sushi.connpass.com/event/317348/ ■発表者 技術本部 研究開発部 Architectグループ 中根 洋平 ■研究開発職 採用情報 https://media.sansan-engineering.com/randd ■Sansan Tech Blog https://buildersbox.corp-sansan.com/

                                  BigQuery データ キャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas
                                • INFORMATION_SCHEMAを用いたBigQueryのストレージ無駄遣い調査 - ZOZO TECH BLOG

                                  こんにちは、『地球の歩き方ムー』創刊のニュースに心を踊らせている、データ基盤ブロックの塩崎です。 本記事では、データ基盤の管理者としてBigQueryのストレージコストの削減に取り組んだ事例を紹介します。 BigQuery費用はクエリ費用だけではない ZOZOのデータ基盤として利用されているBigQueryは、非常にパワフルなDWH(Data WareHouse)です。しかし、それ故に利用者の意図しないところで費用が高騰することもしばしば発生します。よく問題になるのはクエリ費用の高騰であり、以下のQiita記事はBigQuery利用者の中でも有名です。 qiita.com このクエリ費用の高騰に対し、我々データ基盤ブロックはこれまでに、いくつもの方法で対処してきました。具体的な取り組みの一部は以下の記事で紹介しているので、併せてご覧ください。 techblog.zozo.com techb

                                    INFORMATION_SCHEMAを用いたBigQueryのストレージ無駄遣い調査 - ZOZO TECH BLOG
                                  • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

                                    Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 本記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

                                      Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
                                    • BigQueryでUplift Modeling分析|Dentsu Digital Tech Blog

                                      電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryでUplift Modeling分析を行うための方法について紹介します。 広告効果を上げるためには? 広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(CV)の差である、と言えます。 介入が無作為に割り当てられるランダム化比較試験(randomized controlled trial, RCT)において、広告効果は平均処置効果(average treatment effect, ATE)として推定できます。 詳しくは過去記事[1]にまとめています。 Uplift Modelingは「広告施策において、その効果を上げるためには誰を広告配信対象とするべきか」を推定するための方法です。 ユーザーの特徴量を 𝐱𝑖 とすると、Uplift Scoreは下記のように算出されます。 Up

                                        BigQueryでUplift Modeling分析|Dentsu Digital Tech Blog
                                      • チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog

                                        昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。 コミュニティの盛り上がりを感じる良いミートアップだったと思います。 この記事では発表ではお話しできなかったことの補足も含め、 我々のデータ基盤を取り巻く構成と その背景となる考え方について紹介したいと思います。 誰のためのデザイン? データの民主化と基盤開発 Rettyにおけるデータウェアハウジング データ基盤開発の標準化 効果的なプラクティスの導入 データウェアハウシングのための実践的なレイヤ構成 データ置き場

                                          チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
                                        • ディメンショナル・モデリング

                                          VOYAGE GROUP Techlog Advent Calendar 2020 13日目 ディメンショナル・モデリングとは ディメンショナル・モデリング Wikipediaには以下のような説明がある。 Dimensional Modeling (DM) is a data structure technique optimized for data storage in a Data warehouse. データウェアハウスにデータを格納するために、最適化されたデータ構造の手法。 背景 情報システムは2つの大きなカテゴリに分類される。1つはビジネスプロセスの実行支援する業務システム、もう1つはビジネスプロセスを分析支援する分析システム。それぞれ根本的に異なる目的があるため、異なる原則に基づき設計が進化してきた。 業務システムの目的は、ビジネスプロセスで発生した重要な事実や行動を記録する

                                            ディメンショナル・モデリング
                                          • Amazon Aurora, Redshift, DynamoDBのワークロード別性能を比較する - Qiita

                                            はじめに AWSが提供する代表的なDBサービスには、クラウド前提で設計されたRDBのAmazon Aurora、 データ分析特化型RDBのAmazon Redshift、ワイドカラム型DB(NoSQL)のAmazon DynamoDB1があります。AWSの各DBサービスの使い分けについては、一般的には概ね業務系システムのDBにはAuroraやDynamoDB、分析系システムのDBにはRedshiftを利用すれば良いとされていますが2、その根拠について定量的に確かめてみたいと思ったので、実際にOLTP/OLAPワークロード別の負荷をかけて各DBサービスの性能特性の違いについて確認してみました。 ※実際のシステム性能は様々な条件により変動します。あくまでも参考情報の一つとして捉えていただきますようお願いします。 前提知識 まず前提となる考え方として、OLTP/OLAPワークロードについて概説し

                                              Amazon Aurora, Redshift, DynamoDBのワークロード別性能を比較する - Qiita
                                            • 今こそ注目!DWHにおけるデータモデリングとその歴史

                                              近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。 本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。 目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

                                                今こそ注目!DWHにおけるデータモデリングとその歴史
                                              • Cloud Dataflow で Cloud SQLからBigQueryにサーバーレスにデータ連携する - suusan2号の戯れ

                                                取引先で、Cloud SQL(Postgres)からBigQueryにアプリケーションのデータを連携させたいという話があって、いろいろ調べたのでまとめる。 最初はEmbulkとか使えばいいんかなと思ったけど、基本サーバーサイドはGAEしか使ってない状況でEmbulkをどこで動かそうか…って感じだったので、GCPのマネージドサービスであるCloud Dataflowを活用することにした。*1 アプリケーションの環境は以下のような感じ。 スマホアプリを提供している Firebase Auth / Analyticsを使用している Analyticsの情報はBigQueryに連携させている APIサーバはGAE上にたっている DBはCloud SQL(Postgres)を使用している GCPのデータ処理関連のマネージドサービスについて GCP上でデータをBigQueryに投入しようと思ってグーグ

                                                  Cloud Dataflow で Cloud SQLからBigQueryにサーバーレスにデータ連携する - suusan2号の戯れ
                                                • RedshiftのMERGE SQL commandがGAになりましたね。 - KAYAC engineers' blog

                                                  SREチームの池田です。 今回はAmazon RedshiftのMERGE SQL commandがGAになりましたので、MERGE SQL commandの何が嬉しいのかを話をしたいと思います。 SRE連載 4月号になります。 aws.amazon.com 3行でまとめ RedshiftのMERGE SQL commandがGAになりました。 Bulk UpsertをSQL1文で実行できるものです。 以前と比べるとスッキリします。 複数のデータソースから算出されるレポートの更新に使うと嬉しい。 以前のRedshiftにおけるBulk Upsertについて ご存知かもしれませんが、『なかったらInsert、あったらUpdate』を通称Upsertといいます。 Redshiftにおける、Upsertのやり方ですがMERGE SQL commandが出る前のRedshiftでは以下のドキュメン

                                                    RedshiftのMERGE SQL commandがGAになりましたね。 - KAYAC engineers' blog
                                                  • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

                                                    はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

                                                      dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
                                                    • Amazon Redshift 新しい圧縮エンコーディング『AZ64』とLZO、ZSTDの徹底比較 | DevelopersIO

                                                      Amazon Redshift 新しい圧縮エンコーディング『AZ64』とLZO、ZSTDの徹底比較 これまでは主に高速なLZO、高圧縮なZSTDの2つ圧縮エンコーディングをノードタイプやワークロードに応じて選択していましたが、新たに追加されたAZ64は高速と高圧縮な特性を兼ね備えています。今回は新たに追加されたAZ64について検証したいと思います。 Amazon Redshift が最適化されたストレージと高クエリパフォーマンス向けの新しい圧縮エンコーディングである AZ64 をリリース 以下、本文の抜粋です。 高い圧縮率と改善されたクエリパフォーマンスの達成を目的として設計された独自の圧縮エンコーディングである AZ64 が利用可能になりました。革新的な AZ64 アルゴリズムは、データ値の小さなグループを効率的に圧縮し、SIMD 命令を活用してデータを並列処理します。このエンコード

                                                        Amazon Redshift 新しい圧縮エンコーディング『AZ64』とLZO、ZSTDの徹底比較 | DevelopersIO
                                                      • search and community in cookpad 2019

                                                        クックパッドのレシピ検索とレシピコミュニティ cookpad product kitchen #4の発表資料です。

                                                          search and community in cookpad 2019
                                                        • BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside

                                                          こんにちは、メディアサービス開発部サービス分析課の佐藤です。ブックウォーカー社で全社横断のデータ基盤を構築しています。 今年の3月末にBigQueryの新料金体系、BigQuery Editionsが発表されました。これに伴い来月の7月5日より従来の定額モデルが終了し、オンデマンド料金モデルも25%の値上げとなります。 cloud.google.com これまでブックウォーカー社ではスキャンサイズのバーストを防ぐためにGoogle Cloud(GCP)の「割り当てと上限」を利用し、BigQueryにおいてプロジェクト全体のスキャンサイズとユーザーごとのスキャンサイズを制限していました。これはプロジェクト全体、あるいはユーザーが設定したスキャンサイズを上回るとそれ以上の処理を停止させるという制限です。 Webサービス開発に関わる分析業務ではGoogleAnalyticsのエクスポートログやW

                                                            BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside
                                                          • Snowflakeは何がすごくて何ができるのか ITアーキテクトが見た技術的特性と可能性

                                                            Snowflakeは何がすごくて何ができるのか ITアーキテクトが見た技術的特性と可能性:Snowflakeで何ができる? 基礎情報解説(1)(1/2 ページ) 近年データ活用基盤を語る際、話題に上ることが増えたソリューションの1つにSnowflakeが挙げられます。単なるクラウドDWHではない先進的な設計思想やデータ処理の特徴に加え、既存の企業情報システムの課題解消にどう生かせるかを見ていきます。

                                                              Snowflakeは何がすごくて何ができるのか ITアーキテクトが見た技術的特性と可能性
                                                            • Apache Kafka が生まれた理由

                                                              今データを使って何かした方がいいと考えているお客様は多いのではないかと思います。Red Hat の金融セミナーでもこの手のお話があり、マネーソーの登壇者が以下の話をしていました。 義務化されるものがある一方で、オープンバンキングを実装するための様々なアプローチがあるのですが、一貫したテーマが一つあることに気付きました。〜略〜 今や誰もが同じデータへアクセスすることが可能で勘定系システムの中にある貴重なデータに基づいて活動できるのは私だけではありません。ではどうしたら差別化できるでしょうか。〜略〜 その答えとは次のようなものです。 データを使っていますぐ何かした方がよい。〜略〜 データに基づく活動が次の未開拓領域です。 ETL を使っていたときの LinkedIn の課題前提 : アクテビティデータActivity data is one of the newer ingredients i

                                                                Apache Kafka が生まれた理由
                                                              • Back at my old job in ~2016, we built a cheap homegrown data warehouse via Postg... | Hacker News

                                                                Back at my old job in ~2016, we built a cheap homegrown data warehouse via Postgres, SQLite and Lambda.Basically, it worked like this: - All of our data lived in compressed SQLite DBs on S3. - Upon receiving a query, Postgres would use a custom foreign data wrapper we built. - This FDW would forward the query to a web service. - This web service would start one lambda per SQLite file. Each lambda

                                                                • BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ

                                                                  前提 状況 整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理 結論 おわりに こんにちは、開発事業部で PM をしている丸山です。 キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。 データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。 前提 本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。 扱うデータソース

                                                                    BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ
                                                                  • 「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside

                                                                    はじめに アドプラットフォーム事業部でアナリティクスエンジニアをしているucchi-です。 ピクシブは、2022年11月24日に「pixiv Ads」という広告ネットワークをリリースしました。広告主は、pixivに広告を少額予算から簡単に出稿できます。 ads.pixiv.net pixiv Adsのデータ基盤では、大きく分けて以下の課題と向き合っています。 鮮度:広告の配信状況をリアルタイムに見たい クライアントは、ユーザーに広告を届けるため、常にお金を払い続けます。広告配信条件を誤ると、それだけお金を無駄にしてしまうため、少なくとも数十分以内に配信状況を確認できる必要があります 精度:広告の支払い金額は1円の誤差も許さない クライアントは、広告の配信ログから集計した配信実績に基づきお金を支払います。請求金額が絡むため、非常に高い精度のデータ品質が求められます これらの課題に対し、データ

                                                                      「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside
                                                                    • Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ

                                                                      エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー

                                                                        Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
                                                                      • GitHub - duckdb/duckdb: DuckDB is an in-process SQL OLAP Database Management System

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - duckdb/duckdb: DuckDB is an in-process SQL OLAP Database Management System
                                                                        • Apache Iceberg - Apache Iceberg

                                                                          What is Iceberg? Iceberg is a high-performance format for huge analytic tables. Iceberg brings the reliability and simplicity of SQL tables to big data, while making it possible for engines like Spark, Trino, Flink, Presto, Hive and Impala to safely work with the same tables, at the same time. Expressive SQL Iceberg supports flexible SQL commands to merge new data, update existing rows, and perfor

                                                                          • 「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita

                                                                            目次 はじめに 背景と目的 Databricksとは何か 機能紹介 共通 データエンジニアリング 機械学習 Databricks SQL おわりに はじめに こんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。 お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。 本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。 今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします! 背景と目的 皆様の中には Databricks という会社に馴染みがない方も多いと思います。 米国カリフォルニア州に本社が

                                                                              「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita
                                                                            • ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

                                                                              ジモティーiOSチーム所属のエンジニアの橋本です。 普段はiOSアプリの開発に従事していますが、 Webやネイティブアプリ(iOS/Android)の各種計測データの収集や社内への展開などの業務にも従事しています。 今回は、自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。 組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ(iOS/Android)が生み出す様々なデータは 収集・蓄積・加工 ▶ 分析・活用 という過程を経るわけですが、その利用目的は大きくは2つです。 ジモティーというサービスの現状がどうなのか、 サービスのコンディションの善し悪しを判断するための利用 ユーザーの利用状況の傾向を把握し、次の打ち手を決める判断材料としての利用 この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。 エンジニア

                                                                                ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
                                                                              • 【禁断の比較?】SnowflakeとTreasure Dataを比べてみました

                                                                                ここ最近「SnowflakeとTreasure Dataの違いを教えてほしい」 といった質問を頂くことが増えています。 どちらもクラウドDWH(データウェアハウス)や、 クラウドデータプラットフォームと呼ばれるように、競合するプロダクトですね。 クラウドのスケールメリットを活かしている点、 ユーザビリティの高いGUIが用意されている点など、共通点が多いです。 2011年に米国で日本人が創業し、 2013年から今日に至るまで日本国内での普及を着実に進めていったTreasure Data。 2012年に米国で元Oracle出身者が創業し、 グローバルでの評価を確固たるものとし、 満を持して2019年に日本法人を設立したSnowflake。 グローバルでの知名度は圧倒的にSnowflakeの方が高いのですが 日本国内での歴史はまだ浅く、 国内においてはTreasure Dataの方が知名度が高く

                                                                                  【禁断の比較?】SnowflakeとTreasure Dataを比べてみました
                                                                                • ダンボールワンのデータ分析基盤〜dbt導入してみた〜

                                                                                  背景 ダンボールワンがラクスルグループに加わり、データ分析基盤を整備したのでその事例紹介 ラクスルグループの中で、はじめて dbt を導入してとても良かったので、その部分を中心に紹介 整備前はサービスDBの Read Replica に Redash から接続してデータ分析していた Redash で SQL を書いて分析できるメンバーが限られるため、SQL を書けないビジネス側メンバーも自分で分析できる環境が欲しかった(利用者は30名程度) データ分析基盤構成 Data Warehouse Data Warehouse は BigQuery を採用 ラクスルグループでは Snowflake を採用しているケースもあるが、今回は Googleスプレッドシート や Googleデータポータル といった BI環境との接続性を重視 BI BI環境は Googleスプレッドシートのコネクテッドシート

                                                                                    ダンボールワンのデータ分析基盤〜dbt導入してみた〜

                                                                                  新着記事