dataLakeの人気記事 199件 - はてなブックマーク

1 - 40 件 / 199件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dataLakeの検索結果1 - 40 件 / 199件

データ収集の基本と「JapanTaxi」アプリにおける実践例
- 321 users
- www.slideshare.net/tetsutarowatanabe
- テクノロジー
- 2020/08/19
データ収集の基本として、データソース毎に典型的なデータ収集方法を整理して説明しています。またJapanTaxiアプリにおいてどのように実践しているかを説明しています。Read less
- データ
- あとで読む
- データ分析
- bigquery
- db
- data
- 分析
- システム
- architecture
- datalake
Jupyter(Python)とBigQueryによるデータ分析基盤のDevOps #pyconjp // Speaker Deck
- 277 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2017/09/08
PyCon JP 2017 の発表資料です。ジャンルは「業務利用事例」となります。追記1. PyCon JP 2017 ベストトークアワード優秀賞を受賞しました！追記2. http://yuzutas0.hatenablog.com/entry/2017/09/12/203000 に補足を掲載しています！
- bigquery
- jupyter
- python
- devops
- データ分析
- あとで読む
- 分析基盤
- pyconjp
- analytics
- データ
新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
- 274 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/11/24
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。以前に「AWS Lake Formationでデータレイク体験！」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。なぜデータレイクハウスが注目されているのか？データウェアハウスの特徴・課題データレイクの特徴・課題データレイクハウスの特徴データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを
- アーキテクチャ
- あとで読む
- データ
- datalake
- aws
- Azure
- 機械学習
- architecture
- BI
- tech
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 244 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw
- DWH
- BI
- あとで読む
- データ
- data
- slide
- datalake
- platform
- bigquery
AWSで“データのサイロ化”を防げ　すべてのデータを1ヶ所に集めるデータレイクの作り方
- 242 users
- logmi.jp
- テクノロジー
- 2021/04/26
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。企業規模に関係なく起こるデータのサイロ化野口真吾氏（以下、野口）：みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは＠nogというIDを使って活
- aws
- あとで読む
- データ
- データレイク
- インフラ
- DB
- data
「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
- 208 users
- aws.amazon.com
- テクノロジー
- 2020/06/19
Amazon Web Services ブログ「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開去年よりAWSのメンバー４名（志村、上原、関山、下佐粉）でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新：第4回の資料を追加公開しました以下よりご覧いただけます。(PDFフ
- aws
- datalake
- あとで読む
- データレイク
- 資料
- アーキテクチャ
- amazon
- db
- データ
- data
事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
- 203 users
- speakerdeck.com/shinu
- テクノロジー
- 2020/08/19
Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者：しんゆう＠データ分析とインテリジェンス Twitter：https://twitter.com/data_analyst_
100倍で考える - Preferred Networks Research & Development
- 176 users
- tech.preferred.jp
- テクノロジー
- 2014/10/06
私が最近強く印象に残った言葉が10倍で物事を考えるです[wired]。これが私の記憶の中で拡大解釈され、今は100倍で物事を考えるようになっています。「100倍」というのは一見すると不可能なことの例えのように思えますが、決してそんなことはありません。どの程度現実的か例をあげて考えてみましょう。 DWH（DBと考えても良いです）という分野を考えてみます*1。 *1 この分野は専門家ではないのであくまで外から見ている素人の意見です。 2014年10月現在 Google BigQueryは1GBの保存に月あたり約3円、クエリ時1TBスキャンあたり500円という価格設定です。基本的なDBの操作は全部できて、その上でユーザーが自由に関数を定義できて、画面とつながって結果が数十秒で返ってきてです。これはこの分野を知る人にとっては衝撃的な価格です。 1昔前、DWHの世界では製品が数千万から数億円
- 考え方
- PFI
- BigQuery
- redshift
- business
- google
- 仕事
- innovation
- イノベーション
- マネジメント
DeNA流データエンジニアリングの極意
- 167 users
- speakerdeck.com/sonots
- テクノロジー
- 2017/02/18
Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-niokerukuraudowohuo-yong-sitaji-jie-xue-xi-ji-pan-falsegou-zhu を参照。
- DeNA
- データ分析
- あとで読む
- etl
- bigdata
- devsumi
- sonots
- development
- data
- hdfs
DeNAの分析を支える分析基盤
- 143 users
- www.slideshare.net/kenshinyamada5
- テクノロジー
- 2016/02/02
Kenshin YamadaGeneral Manager, Analytics Infra Department at DeNA
- DeNA
- データ分析
- Hadoop
- Spark
- Elasticsearch
- 分析
- analytics
- analysis
- ゲーム
- data
カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 - Retty Tech Blog
- 137 users
- engineer.retty.me
- テクノロジー
- 2017/06/13
こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie（@chie8842）です。好きなたべものは焼肉とみかんです。現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。はじめに - カラムナフォーマットとはカラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで
- Parquet
- DWH
- database
- ORC
- データ
- 分析
- format
- Retty
- DB
- あとで読む
データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0
- 129 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2018/12/03
この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。めっちゃ専門的な内容になってしまいました。ごめんなさい。某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。もくじもくじはじめに「データ基盤の3分類」と「（一般的な）技術要素」 1.データレイク（Data Lake） 2.データウェアハウス（Data Warehouse） 3.データマート（Data Mart）私が考えるデータ基盤の定義私が考える「あるべき構成」技術要素を分けるのはアンチパターン進化的データモデリングを容易にしようチームとアーキテクチャを選ぶまとめ参考余談追記はじめにデータ基盤と世間一般で言われるシステムには分類
- データ基盤
- データ分析
- BigQuery
- 分析基盤
- data
- あとで読む
- データ
- Hadoop
- sql
- database
Delta Lake とは何か - connecting the dots
- 129 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
- databricks
- あとで読む
- データ
- db
- 機械学習
- bigdata
- hadoop
- 開発
- プログラミング
- programming
データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,
- 128 users
- chezou.hatenablog.com
- 暮らし
- 2016/05/05
先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社（前職）の一例です。データ活用が広まった流れ数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる今まで実行計画を気にして避けていたことにガ
- SQL
- DWH
- Redshift
- DataMining
- エンジニア
- あとで読む
- データ
- データ分析
- bigdata
- 分析
データ活用基盤の今〜DWH外観図〜 - クックパッド開発者ブログ
- 122 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/18
こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。外観図以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum（S3＋Glue）周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か
- dwh
- あとで読む
- データ基盤
- dataWareHouse
- cookpad
- database
- データ
- 分析
- AWS
アプリを成長させるためのログ取りとログ解析に必要なこと
- 120 users
- www.slideshare.net/slideshow
- テクノロジー
- 2018/02/09
2022年9月13日株式会社メンバーズポップインサイトカンパニーでのウェビナーのスライドです。「ユーザーが欲しいと言った機能をつけたのに使われない！」という経験はありませんか。プロダクトをつくるとき「ユーザーの心理を理解しよう」とよく言われます。しかし、ユーザーに言われたままやることと、ユーザーが本当に望んでいることは異なります。「UXデザイン・UXリサーチ」は、ユーザーを理解するための専門技術です。ユーザーインタビューやユーザビリティテストを用いてファクトを集めることで、ユーザーの表面的な言葉に惑わされない、本当のインサイトにたどりつくことができます。かんたんなワークも交えながら、体系的に解説いたします。
- ログ
- Android
- analytics
- あとで読む
- ログ解析
- log
- データ分析
- 解析
ビッグデータ処理データベースの全体像と使い分け 2018年version
- 115 users
- www.slideshare.net/tetsutarowatanabe
- テクノロジー
- 2018/09/21
ビッグデータ処理データベースを分類し、2018/9時点で最新のプロダクトを紹介しています。Read less
- DB
- データベース
- あとで読む
- hadoop
- BigQuery
- SQL
- database
データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
- 108 users
- tech.nri-net.com
- テクノロジー
- 2021/06/01
こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
- 108 users
- developer.hatenastaff.com
- テクノロジー
- 2020/04/16
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
- 101 users
- smrmkt.hatenablog.jp
- テクノロジー
- 2016/04/19
Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ
- ETL
- hadoop
- あとで読む
- ビッグデータ
- dwh
- DB
- datamining
- slideshare
- データ
AWSで作るデータ分析基盤サービスの選定と設計のポイント
- 99 users
- speakerdeck.com/takuros
- テクノロジー
- 2021/07/21
2021年3月18日に実施したデータ活用ウェビナーの登壇資料データ分析基盤を作る上での設計のポイントと、AWSのサービス選定について
- aws
- あとで読む
- データ
- 分析基盤
- 分析
データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
- 85 users
- tech.nri-net.com
- テクノロジー
- 2021/05/10
こんにちは佐々木です。いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。構造化データと半構造化データ、非構
ぼくのかんがえる最高のレポーティング基盤 @AWSで実践！Analytics modernization
- 85 users
- speakerdeck.com/pei0804
- テクノロジー
- 2021/06/08
VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。 https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html ディメンションモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ（基礎） https://zenn.dev/pei0804/articles/star-schema-design 複数スタースキーマ https://zenn.dev/pei0804/articles/multiple-star-schema ファン・トラップ https://zenn.dev/pei0804/articles/datawarehouse-fan-trap
- aws
- アーキテクチャ
- ログ
- あとで読む
- データ
- analytics
- レポート
- dev
Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
- 82 users
- engineer.retty.me
- テクノロジー
- 2020/05/27
書き手：@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧これらの記事はおかげさまで好評いただいております。いつもありがとうございます。しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました（以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし
【k8s合宿】 Kubernetesのログ分析環境を作る - Uzabase for Engineers
- 82 users
- tech.uzabase.com
- テクノロジー
- 2018/02/01
こんにちは、SPEEDAのSREチームでエンジニアをしている阿南です。SPEEDAのSREチームでは、昨年末kubernetesについて理解を深めるために合宿を行いました。やり方はA〜Cの３チームに分けて、それぞれのチームでkubernetesに関することを調査、構築するという形式で、今回はAチームが実際にやってみた内容についてブログを書きたいと思います。（それぞれのチームでかなりボリュームがあるので、複数回に渡って連載的な形でお届けしたいと思います。） Aチームでは、kubernetesを本番環境に投入するにあたり、ログ収集周りをあまり調査できてないなと感じ、GCP上に環境を作ってみることにしました。構築する環境構築手順クラスター構築 wordpress + MySQL構築 Fluentdイメージの作成 ConfigMap設定 DaemonSet設定まとめお知らせ構築する環境
- Kubernetes
- fluentd
- あとで読む
- BigQuery
- ログ
- GKE
- k8s
- container
- log
全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
- 79 users
- techblog.zozo.com
- テクノロジー
- 2022/09/15
こんにちは、データ基盤の開発、運用をしていた谷口（case-k）です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。データ基盤の紹介旧データ基盤の紹介旧データ基盤の課題変更があっても更新されないデータ性質の異なるテーブルを同じ命名規則で管理
- BigQuery
- あとで読む
- データ
- gcp
- 分析
データレイク構築後の四方山話 #DPM / 20190905
- 76 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2019/09/06
Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/
大学で学んだ図書館情報学で食いっぱぐれずに済んでいる話 - oscillographの日記
- 70 users
- oscillograph.hateblo.jp
- テクノロジー
- 2019/12/23
はじめにこの記事はklis Advent Calendar 2019の22日目の記事です。この記事では「図書館情報学という学問が大学の外の世界でどのように活用できるか」というのをIT系の企業で働いている実体験込みでつらつら書いていこうかなと思います。この記事の目的は図書館情報学を学んでいる学生の方や、図書館情報学にちょっと興味のある方に対して、ちょっとお先に社会に出ている立場から「（司書にならなくても!）図書館情報学は社会で役に立つので頑張って学んでください！」という応援をすることです。*1 この記事の最後に、学問一般を学ぶことの意義にもちょっと触れてます。何者？簡単に自己紹介しておきたいと思います。自分は2011年に入学したklis11の卒業生で、卒業後5年くらい立った社会人です。（大学院含めると社会人歴3年くらい）大学院卒業後は新卒でデータ解析職として人材系の会社に入社し
- 図書館情報学
- 大学
- あとで読む
- 図書館
- 情報
- 学問
- 教育
データファースト開発
- 67 users
- www.slideshare.net/slideshow
- テクノロジー
- 2015/10/14
開発チームのためのデータ分析環境の構築と継続的改善の仕組み 2015.10.14 @ Developers Summit 2015 AutumnRead less
N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
- 66 users
- blog.nnn.dev
- テクノロジー
- 2022/07/22
はじめに昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。はじめに N予備校における従来のデータの取り扱い現在の取り組み本番環境のデータのBigQueryへの蓄積データ活用のプロトタイピングそのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討分析対象のデータ拡充データの管理体制機械学習技術等の活用おわりに We are hiring! N予備校における従来のデータの取り扱いまず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現
民間企業におけるデータ整備の課題と工夫 / 20220305
- 64 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/03/07
第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください。 https://yuzutas0.hatenablog.com/
軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog
- 62 users
- tech.repro.io
- テクノロジー
- 2020/07/02
こんにちは。業務委託として SRE チームのお手伝いをしている @syucream です。本記事では Repro にて開発した、 Go 製のカラムナフォーマットへのデータ変換ツール columnify について、開発背景や技術的な取り組みを紹介します。なぜカラムナフォーマットか？ことのおこり事業がスケールすると共に扱うログの量が増えることは、喜ばしい反面さまざまな悩みをもたらします。その中でも顕著なものの一つとしてコストの問題が挙げられます。膨大なログデータはログに対するストレージ料金を増大させると共に、分析や可視化に際してクエリで求められるコンピュートのコストも無視できなくなっていきます。近頃 Repro でもコンテナのログの管理においてこの問題が顕著になってきました。Repro のバックエンドシステムは ECS 上のコンテナで実現され、ログの閲覧・管理のため外部のログ収集サ
- go
- golang
- parquet
- fluentd
- ツール
AWS データレイク事例祭り登壇資料
- 59 users
- speakerdeck.com/yuki_saito
- テクノロジー
- 2022/06/27
AWS データレイク事例祭り登壇資料です。
- datalake
- あとで読む
- aws
- データ
- 学習
- data
- 資料
データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/14
というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。背景 / 前提データウェアハウスのテーブルを社内に広く提供したい初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともあるデータウェアハウスのバージョンを場面に応じて複数提供できると都合がよい一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい
S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
- 55 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/16
本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない！AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。「データはとりあえずS3に溜めておけ！」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか？本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。概要データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか？データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ
- aws
- s3
- あとで読む
- datalake
データ基盤のメタデータを継続的に管理できる仕組みを作る（ペパボ編） / pepabohatena
- 54 users
- speakerdeck.com/k1low
- テクノロジー
- 2020/05/14
ペパボ・はてな技術大会〜@オンライン https://pepabo.connpass.com/event/174331/
データカタログにNotionを選択した理由
- 54 users
- zenn.dev/luup_developers
- テクノロジー
- 2022/12/09
実装方法冪等性を担保したGoogle Cloud Composerの設計と実装で紹介しているとおり、Luupのデータ基盤はGoogle Cloud Composerを軸に動いています。なので今回も、Google Cloud Composerの環境下に作りました。アウトプットイメージは以下です。以下のNotion APIのDocumentを参考に実装を進めていきます。サンプルコードも豊富で、説明も丁寧なので簡単に実装できました。以下、コード一例です。 # Notionのフォーマットに変換するメソッド def format_standard_property_value(self, property_name: str, value: str): if property_name == "title": return {"title": [{"text": {"content": v
- notion
- *data
- あとで読む
- データ
- DB
事業の進展とデータマネジメント体制の進歩（＋プレトタイプの話）
- 53 users
- www.slideshare.net/slideshow
- テクノロジー
- 2021/12/10
2021/12/10に開催された TechMarketing Conference 2021 # データマネジメント #techmar での講演資料です。 https://techxmarketing.connpass.com/event/229173/ Read less
データの価値を失わないためのData Reliability
- 51 users
- speakerdeck.com/tanakarian
- テクノロジー
- 2020/02/06
dbtを活用したデータ基盤の論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
- slide
- あとで読む
- データ
- data
データ分析基盤におけるオブザーバビリティの取り組み
- 48 users
- speakerdeck.com/kojim
- テクノロジー
- 2022/04/28
GMOペパボ株式会社では主にGoogle Cloud Platformのサービスを利用してデータ分析基盤を構築し運用しています。その中心となるのがデータウェアハウスのBigQueryとワークフローエンジンのCloud Composerです。また、社内向けのデータ可視化(ダッシュボード)システムではCloud Runを利用しています。データ分析基盤から得られる情報を重要な意思決定に用いるためには、ユーザーに提供しているインフラと同様に、可用性を明らかにし、継続的に可用性を高める Realiability エンジニアリングが必要となります。本講演ではGCPで構築されているデータ分析基盤を題材として、データ分析基盤に求められる可用性や、小規模なチームにおけるオブザーバビリティへの取り組みについてご紹介します。