dwhの人気記事 164件 - はてなブックマーク

1 - 40 件 / 164件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dwhの検索結果1 - 40 件 / 164件

dwhに関するエントリは164件あります。データ、データ基盤、 BigQuery などが関連タグです。人気エントリには『近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記』などがあります。

近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
- 399 users
- uma66.hateblo.jp
- テクノロジー
- 2019/10/17
久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って
- BigQuery
- あとで読む
- アーキテクチャ
- aws
- 運用
- データ基盤
- 分析
- データ
- GCP
- エンジニア
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
- 302 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2021/11/20
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンドデータインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試みプロダクト組み込み用データサービスリアルタイム Analytics Engineer の登場各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
- data
- あとで読む
- データ
- SQL
- architecture
- データ基盤
- 統計
- dataManagement
- ツール
- DWH
論理プログラミング言語Logicaでデータサイエンス100本ノック
- 267 users
- zenn.dev/koji_mats
- テクノロジー
- 2021/06/25
Googleが発表したOSSプロジェクトである論理プログラミング言語Logicaを使って、データサイエンス100本ノック(構造化データ加工編)の設問を解きながらどのような言語かを確認していく。 (BigQueryのクエリとして実行していく) 最初に、プログラミング言語Logicaの特徴を纏めておく。論理型プログラミング言語: このカテゴリではPrologが有名 SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応モジュール機構がある: SQLと比較した強みコンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる Colabでチュートリアルが用意されているので、まずこちらからやると良いと思う。コードの見た目は関係論理の記述に似ている。事前に、データサイエンス100本ノックのテーブルデータをBigQu

コールセンターの担当者もSQLを叩く。モノタロウのデータドリブンな文化に惚れた｜株式会社MonotaRO（モノタロウ）
- 248 users
- note.com/monotaro_note
- テクノロジー
- 2021/06/04
※本記事の内容は取材時のものであり、組織名や役職等は取材時点のものを掲載しております。モノタロウの継続的なビジネス成長に伴い、月間セッション数や注文数は大幅な増加を続けています。指数関数的に増えるデータを扱いやすくするための技術的探求は尽きません。なかでもデータハブの整理・構築を中心に技術開発・研究に携わるのが、エンジニアの中村さん（ECシステムエンジニアリング部門 EC基盤グループコアロジックチーム）です。データ領域で「冒険したかった」という彼が、モノタロウを選んだ理由や技術的な面白さ、今後の展望について話を聞きました。データが“いくらでも増え続ける”サービスでのチャレンジ ——はじめに、現在の業務について教えてください。主にデータハブの整理や構築です。実際のデータからバッチ処理でデータを作り、API化していく手法を開発・研究しています。プラクティスを他の開発者に展開するなど、
- SQL
- あとで読む
- DX
- 仕事
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 242 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg …
- DWH
- BI
- あとで読む
- data
- データ
- slide
- datalake
- bigquery
- platform
MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog
- 238 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/10/26
おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
- BigQuery
- あとで読む
- mysql
- データ
- データ基盤
- SQL
- 分析
- database
- data
- 運用
なぜETLではなくELTが流行ってきたのか - Qiita
- 226 users
- qiita.com/hiro_koba_jp
- テクノロジー
- 2022/12/05
概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます！（みんなも参加してね）データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか？一方、「ETLではなくELT（音楽グループではない）が主流になりつつある」といったような論調も増えてきました。この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか（予想）について、私なりの見解を書いてみようと思います。一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう
- BigQuery
- あとで読む
- データ
- データ分析
- etl
- ELT
- architecture
- SQL
[レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
- 198 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/08
さがらです。 11月8日20時～22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。本記事はこのイベントのレポートブログとなります。イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました！たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。おまけ：当イベントの応募者数このイベントですが、なんと
DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
- 193 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/07/27
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤やデータマネジメントに興味を持たれている方はDMBOKを持っている / 読んだことがあるという方も多いのではないでしょうか。このエントリではDMBOK中に紹介されているデータマネジメント成熟度アセスメント(以下、アセスメントと省略)をモノタロウでどう活用しているかについて紹介します。背景初手: 自社のデータ基盤の歴史を振り返るアセスメントの実施データ活用者 / システム提供者 / 意思決定者へのヒアリングの実施アセスメントを実施した結果最後に背景まず、モノタロウでなぜアセスメントを行なったかについて説明します。モノタロウは20年以上歴史のある企業であり、データ基盤自体も10年以上の歴史があります。単一事業ではあるものの、受注 / 売上 / 商品 / 在庫 / 顧客 / 行動履歴など、対象となるドメ
Apache Iceberg とは何か - 流沙河鎮
- 164 users
- bering.hatenadiary.com
- テクノロジー
- 2023/09/24
はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f
- Iceberg
- あとで読む
- apache
- データベース
- DB
- data
- データ
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 151 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから
- 146 users
- www.publickey1.jp
- テクノロジー
- 2020/09/01
GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるからいまから6年前の2014年、当時ようやくDockerコンテナが世の中に知られるようになってきた頃、Googleはすでに社内のすべてのソフトウェアをコンテナ化しており、毎週20億個ものコンテナをクラウド上で起動していると発表し、多くのエンジニアを驚かせました。この大規模なコンテナの制御、すなわちオーケストレーションを行っていたのが同社内で「Borg」と呼ばれるソフトウェアです。そしてKubernetesはこのBorgを基に、Googleがオープンソース化したコンテナオーケストレーションソフトウェアだとされています。 Borgの大規模分散コンテナ基盤でBigQueryが成立するこのBorgによる大規模分散コンテナ基盤があるからこそ、BigQueryが安価に提供できるのだと、Google
- gcp
- あとで読む
- bigquery
- Google
- 仮想化
- techfeed
- AWS
データ活用基盤の今〜DWH外観図〜 - クックパッド開発者ブログ
- 122 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/18
こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。外観図以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum（S3＋Glue）周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か
- dwh
- あとで読む
- データ基盤
- dataWareHouse
- cookpad
- database
- データ
- 分析
- AWS
BigQueryのセキュリティ対策手順
- 116 users
- techblog.kazaneya.com
- テクノロジー
- 2022/08/30
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。風音屋アドバイザーの山田雄（@nii_yan）です。データ活用においてセキュリティ対策が最重要トピックであることは言うまでもありません。風音屋でBigQueryの導入支援を行うにあたって、どのようなセキュリティ対策を行っているのかをご紹介します。この記事の全体像この記事は2つのパートに分かれています。最初に、BigQuery導入プロジェクトを始めるにあたって、セキュリティ観点でどのようなコミュニケーションが必要になるかを説明します。次に、一般的な情報セキュリティ対策である「抑止」「予防」「検知」「回復」の4つの観点にもと
データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
- 107 users
- tech.nri-net.com
- テクノロジー
- 2021/06/01
こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma
An in-process SQL OLAP database management system
- 100 users
- duckdb.org
- テクノロジー
- 2020/05/24
DuckDB is a fast in-process analytical database DuckDB supports a feature-rich SQL dialect complemented with deep integrations into client APIs. DuckDB v1.1.0 was released in September 2024. Installation Documentation -- Get the top-3 busiest train stations SELECT station_name, count(*) AS num_services FROM train_services GROUP BY ALL ORDER BY num_services DESC LIMIT 3;
- database
- SQL
- db
- olap
- データベース
- analytics
- sqlite
- あとで読む
今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
- 99 users
- rheb.hatenablog.com
- テクノロジー
- 2019/12/11
Red Hatの須江です。本記事は赤帽エンジニア Advent Calendar 2019の10日目です。子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけデジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。そこで、2019/6/20に開催された「DX&Open Hybrid Cl
お手軽な検索API構築 | メルカリエンジニアリング
- 88 users
- engineering.mercari.com
- テクノロジー
- 2021/09/07
こんにちは、メルペイソリューションチーム所属エンジニアの＠orfeonです。この記事は Merpay Tech Openness Month 2021 5日目の記事です。メルペイソリューションチームでは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。基本的なアイデア全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二
- solr
- あとで読む
- 検索
- API
SnowflakeとRedshiftの比較検証
- 86 users
- speakerdeck.com/kurochan
- テクノロジー
- 2020/07/28
300コア近くのRedshiftクラスタを運用している広告配信プロダクトでSnowflakeを検証した結果をご紹介します。
- snowflake
- redshift
- あとで読む
- 運用
- サーバ管理
- slide
- サーバ
- AWS
データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
- 85 users
- tech.nri-net.com
- テクノロジー
- 2021/05/10
こんにちは佐々木です。いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。構造化データと半構造化データ、非構
ZOZOTOWNの事業を支えるBigQueryの話 / BigQuery behind ZOZOTOWN
- 85 users
- speakerdeck.com/shiozaki
- テクノロジー
- 2020/07/18
タイムトラベルはじめました〜時をかけるBigQuery〜 / Now serving Time Machine 〜BigQuery Which Leapt Through Time〜
SQLで始める自然言語処理 - やむやむもやむなし
- 83 users
- ymym3412.hatenablog.com
- テクノロジー
- 2020/12/24
こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス！ adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ
- bigquery
- sql
- 自然言語処理
- NLP
- あとで読む
- 機械学習
- Python
【速報】 BigQuery の料金体系が変更されます | DevelopersIO
- 82 users
- dev.classmethod.jp
- テクノロジー
- 2023/03/30
ウィスキー、シガー、パイプをこよなく愛する大栗です。先程開催されたGoogle Data Cloud & AI Summitにて、BigQuery の料金体系の変更が発表されましたので、レポートします。 Introduction to BigQuery editions Dataset storage billing models BigQuery editions BigQuery で Standard、Enterprise、Enterprise Plus という3種類の料金階層が発表されました。これらのエディションは個々のワークロードの必要性に基づいて適切な価格性能比を組み合わせられます。 BigQuery editions は、コンピュートキャパシティのオートスケーリングと、compressed storage（Preview 時には physical storage と呼ばれて
Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps
- 76 users
- speakerdeck.com/prog893
- テクノロジー
- 2021/06/29
データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する「データレイク」は今やデータ活用に欠かせないものとなりました。一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか？「データレイク向けの関連サービスとか多くてなんかよくわからない」「最初からデー…
🦆🦆🦆🦆🦆🦆DuckDB入門🦆🦆🦆🦆🦆🦆
- 74 users
- zenn.dev/notrogue
- テクノロジー
- 2022/09/24
tl;dr SQLiteのOLAP版だよ OLAP系のクエリにおいて、PandasやSQLiteより早いらしいよ CSV・Parquet・Pandas DataFrameの読み書きできて便利だよ背景ポジション・競合一言で言うとSQLiteのOLAP版です。位置づけとしては、論文(DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo))記載のSystem Landscapeがわかりやすいです。（DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo)より）このLandscapeでは、データベースを Standalone（クライアント・サーバモデル）か、組み込み（シングルマシン・インプロセス）か OLTPかOLAPかの二軸に分割しています。その上で、ク
- SQLite
- db
- OLAP
- あとで読む
- データベース
メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
- 71 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/05/26
Google Cloud Day: Digital ’21 の発表資料です。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo -----------------------------…
- BigQuery
- DWH
- あとで読む
- DataPlatform
- etl
- Mercari
- データ
- メルカリ
- 運用
［速報］Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
- 67 users
- www.publickey1.jp
- テクノロジー
- 2022/11/30
Amazon Web Services（AWS）の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。新サービス「Amaz
- reInvent2022
- AWS
- Redshift
- Aurora
- あとで読む
- amazon
BigQueryでの集計結果をノーコードでSlackに定期投稿してみた - ZOZO TECH BLOG
- 67 users
- techblog.zozo.com
- テクノロジー
- 2021/04/13
こんにちは、DATA-SREチームの塩崎です。最近気になるニュースは「ネコがマタタビを好む理由が蚊を避けるためだった1」です。さて、皆さんはデータ基盤で集計した結果をどのようにして確認していますか。LookerやPower BIなどのBIツールを使って綺麗なダッシュボードを作成している方も多いかと思います。しかし、全員が毎日確認すべき数値はSlackなどの全員が日常的に目にする場所へ掲げたいです。本記事ではBigQueryとSlackを連携させる機能をノーコードで作成する方法を紹介します。従来手法 BigQueryで集計した結果をSlackに通知するためにはGoogle Apps Script（以下、GAS）を用いるやり方が現在では主流です。GASの文法はJavaScriptとほぼ同じであり、普段分析をメインで担当している人たちには馴染みの薄い言語です。また、Cloud Functio
- slack
- BigQuery
- あとで読む
- ZOZO
N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
- 66 users
- blog.nnn.dev
- テクノロジー
- 2022/07/22
はじめに昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。はじめに N予備校における従来のデータの取り扱い現在の取り組み本番環境のデータのBigQueryへの蓄積データ活用のプロトタイピングそのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討分析対象のデータ拡充データの管理体制機械学習技術等の活用おわりに We are hiring! N予備校における従来のデータの取り扱いまず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現
DWHを活用した機械学習プロジェクト/ml-with-dwh
- 65 users
- speakerdeck.com/studio_graph
- テクノロジー
- 2019/12/02
Data Platform Meetup 【vol.2】 https://data-platform-meetup.connpass.com/event/155073/ での発表スライドです。クックパッドにおける，DWHと密に連携した機械学習プロジェクトの話です。
データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 60 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。株式会社10X事業内容10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫での支援を行っています。データカタログ導入の背景以前はデータ分析にデータレイクのテーブルがよく利用されており、カラムのメタデ
[動画公開] データ分析を支える技術データモデリング再入門 #devio2022 | DevelopersIO
- 59 users
- dev.classmethod.jp
- テクノロジー
- 2022/07/25
データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。セッション概要「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH（データウェアハウス）のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、
- 分析
- あとで読む
- データ
- AWS
DWHにおけるデータモデル　定番から最新トレンドまで
- 59 users
- speakerdeck.com/ryotas_data
- テクノロジー
- 2022/12/23
中規模・ミドルTier開発組織におけるDevRelの戦略と実行と成果 - DevRel Guild Conference Mini -
- DWH
- あとで読む
- 分析
- 設計
- DB
- architecture
dbtを触ってみた感想 - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/25
データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている前職でも仕事の一部で使っていた開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較細かいノウハウ手元や本番環境での動作 Argo Workflowとの連携環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える既存
- dbt
- bigquery
- データ基盤
- データ
- SQL
- DWH
- あとで読む
データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/14
というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。背景 / 前提データウェアハウスのテーブルを社内に広く提供したい初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともあるデータウェアハウスのバージョンを場面に応じて複数提供できると都合がよい一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい
- data
- あとで読む
- データ
- database
- management
- 考え方
累計参加者8,500名！ #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
- 57 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/02/24
primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/
- データ基盤
- あとで読む
BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
- 57 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2022/01/04
この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。目次この記事の概要目次宣伝実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか最後に
- BigQuery
- SQL
- データ基盤
- データ分析
- DWH
- あとで読む
- GCP
- SaaS
開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
- 56 users
- www.yasuhisay.info
- テクノロジー
- 2021/01/23
Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。使ってみようとした背景 Dataformについて試してみてどうだったかよかったまだまだこれからっぽいところ & 気になり参考使ってみようとした背景今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも