「DataLake」を検索 - はてなブックマーク

1 - 40 件 / 178件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果1 - 40 件 / 178件

Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬
- 673 users
- ascii.jp
- テクノロジー
- 2021/12/22
この記事はFixer Advent Calendar 9日目の記事です。はじめに最近CKADの受験して一旗上げようと画策しているなむゆです。 Kubernetesについて学ぶ中で、腕試しに使えそうな面白そうなサイトを見つけたので紹介してみようという回です。 Game of PODsとは Game of PODsとは、無料で遊べるKubernetesの問題集です。 Kubernetesクラスターにアプリケーションを展開したり、クラスターで起きている問題を解決することを通してそれらの方法を学ぶことができます。この問題集はKodeKloudというサービスに提供されている教材のひとつで、KataKodaという教材用環境サービス内でホストされている仮想環境にアクセスしてハンズオン形式で課題を解くことができることが特徴です。問題の内容としては、あるアーキテクチャが与えられて、「このアプリケーシ
- kubernetes
- あとで読む
- 学習
- k8s
- game
- ゲーム
- 勉強
- docker
- インフラ
- アーキテクチャ
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
データ収集の基本と「JapanTaxi」アプリにおける実践例
- 321 users
- www.slideshare.net/tetsutarowatanabe
- テクノロジー
- 2020/08/19
データ収集の基本として、データソース毎に典型的なデータ収集方法を整理して説明しています。またJapanTaxiアプリにおいてどのように実践しているかを説明しています。Read less
- データ
- あとで読む
- データ分析
- bigquery
- db
- data
- 分析
- システム
- architecture
- datalake
PayPayがAWSを使い続ける理由　日本No.1のQR決済サービスを支えるインフラ構成
- 300 users
- logmi.jp
- テクノロジー
- 2021/04/06
ZOZO×一休×PayPay AWS Nightは、2020年7月22日に開催されたZOZOテクノロジーズ・一休・PayPayの3社による合同イベントです。各社それぞれAWSの活用事例を紹介します。PayPay株式会社プラットフォームチームの西中氏がPayPayのインフラの概要について話しました（記事内の情報はイベント開催時点のもの）。日本のNo.1 QRコード決済サービス西中智樹氏（以下、西中）：「PayPayでのAWS活用事例について」と題して、PayPay Platformチーム・西中が発表いたします。簡単に自己紹介します。西中智樹と申します。2018年12月よりPayPayで仕事をしていまして、現在、AWSなどのPayPayのインフラを所管するPlatformのチームに所属しています。好きなAWSサービスはEKSです。本日のセッションのアジェンダになります。この順番でお話を
- aws
- PayPay
- あとで読む
- インフラ
- kubernetes
- 運用
- 事例
- 決済
- EKS
- webサービス
新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
- 272 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/11/24
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。以前に「AWS Lake Formationでデータレイク体験！」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。なぜデータレイクハウスが注目されているのか？データウェアハウスの特徴・課題データレイクの特徴・課題データレイクハウスの特徴データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを
- アーキテクチャ
- あとで読む
- データ
- datalake
- aws
- 機械学習
- architecture
- Azure
- BI
- tech
AWSで“データのサイロ化”を防げ　すべてのデータを1ヶ所に集めるデータレイクの作り方
- 242 users
- logmi.jp
- テクノロジー
- 2021/04/26
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。企業規模に関係なく起こるデータのサイロ化野口真吾氏（以下、野口）：みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは＠nogというIDを使って活
- aws
- あとで読む
- データ
- データレイク
- インフラ
- DB
- data
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 242 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg …
- DWH
- BI
- あとで読む
- データ
- data
- slide
- datalake
- bigquery
- platform
「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
- 208 users
- aws.amazon.com
- テクノロジー
- 2020/06/19
Amazon Web Services ブログ「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開去年よりAWSのメンバー４名（志村、上原、関山、下佐粉）でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新：第4回の資料を追加公開しました以下よりご覧いただけます。(PDFフ
- aws
- datalake
- あとで読む
- データレイク
- 資料
- アーキテクチャ
- amazon
- db
- データ
- data
事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
- 203 users
- speakerdeck.com/shinu
- テクノロジー
- 2020/08/19
Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者：しんゆう＠データ分析とインテリジェンス Twitter：https://twitter.com/data_analyst_
データ活用基盤の今〜DWH外観図〜 - クックパッド開発者ブログ
- 122 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/18
こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。外観図以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum（S3＋Glue）周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か
- dwh
- あとで読む
- データ基盤
- dataWareHouse
- cookpad
- database
- データ
- 分析
- AWS
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
- 110 users
- developer.hatenastaff.com
- テクノロジー
- 2020/04/16
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
- 108 users
- tech.nri-net.com
- テクノロジー
- 2021/06/01
こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma
LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
- 106 users
- engineering.linecorp.com
- テクノロジー
- 2021/02/03
こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。課題：このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。コード記述（ステップ1
- LINE
- あとで読む
- batch
- データ
- タスク
- engineering
- システム
- data
今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
- 99 users
- rheb.hatenablog.com
- テクノロジー
- 2019/12/11
Red Hatの須江です。本記事は赤帽エンジニア Advent Calendar 2019の10日目です。子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけデジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。そこで、2019/6/20に開催された「DX&Open Hybrid Cl
AWSで作るデータ分析基盤サービスの選定と設計のポイント
- 99 users
- speakerdeck.com/takuros
- テクノロジー
- 2021/07/21
2021年3月18日に実施したデータ活用ウェビナーの登壇資料データ分析基盤を作る上での設計のポイントと、AWSのサービス選定について
- aws
- あとで読む
- データ
- 分析基盤
- 分析
データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
- 85 users
- tech.nri-net.com
- テクノロジー
- 2021/05/10
こんにちは佐々木です。いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。構造化データと半構造化データ、非構
ぼくのかんがえる最高のレポーティング基盤 @AWSで実践！Analytics modernization
- 85 users
- speakerdeck.com/pei0804
- テクノロジー
- 2021/06/08
VOYAGE GROUP Zucks DSPレポーティング基盤をどのようにして作ったかの話。 https://pages.awscloud.com/JAPAN-event-OE-20210624-AnalyticsModernization-reg-event.html ディメンションモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ（基礎） https://zenn.dev/pei0804/articles/star-schema-design 複数スタースキーマ https://zenn.dev/pei0804/articles/multiple-star-schema ファン・トラップ https://zenn.dev/pei0804/articles/datawarehouse-fan-trap
- aws
- アーキテクチャ
- ログ
- あとで読む
- データ
- analytics
- レポート
- dev
Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
- 82 users
- engineer.retty.me
- テクノロジー
- 2020/05/27
書き手：@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧これらの記事はおかげさまで好評いただいております。いつもありがとうございます。しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました（以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし
大学で学んだ図書館情報学で食いっぱぐれずに済んでいる話 - oscillographの日記
- 70 users
- oscillograph.hateblo.jp
- テクノロジー
- 2019/12/23
はじめにこの記事はklis Advent Calendar 2019の22日目の記事です。この記事では「図書館情報学という学問が大学の外の世界でどのように活用できるか」というのをIT系の企業で働いている実体験込みでつらつら書いていこうかなと思います。この記事の目的は図書館情報学を学んでいる学生の方や、図書館情報学にちょっと興味のある方に対して、ちょっとお先に社会に出ている立場から「（司書にならなくても!）図書館情報学は社会で役に立つので頑張って学んでください！」という応援をすることです。*1 この記事の最後に、学問一般を学ぶことの意義にもちょっと触れてます。何者？簡単に自己紹介しておきたいと思います。自分は2011年に入学したklis11の卒業生で、卒業後5年くらい立った社会人です。（大学院含めると社会人歴3年くらい）大学院卒業後は新卒でデータ解析職として人材系の会社に入社し
- 図書館情報学
- 大学
- あとで読む
- 図書館
- 情報
- 学問
- 教育
N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
- 66 users
- blog.nnn.dev
- テクノロジー
- 2022/07/22
はじめに昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。はじめに N予備校における従来のデータの取り扱い現在の取り組み本番環境のデータのBigQueryへの蓄積データ活用のプロトタイピングそのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討分析対象のデータ拡充データの管理体制機械学習技術等の活用おわりに We are hiring! N予備校における従来のデータの取り扱いまず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現
民間企業におけるデータ整備の課題と工夫 / 20220305
- 64 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/03/07
第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください…
軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog
- 62 users
- tech.repro.io
- テクノロジー
- 2020/07/02
こんにちは。業務委託として SRE チームのお手伝いをしている @syucream です。本記事では Repro にて開発した、 Go 製のカラムナフォーマットへのデータ変換ツール columnify について、開発背景や技術的な取り組みを紹介します。なぜカラムナフォーマットか？ことのおこり事業がスケールすると共に扱うログの量が増えることは、喜ばしい反面さまざまな悩みをもたらします。その中でも顕著なものの一つとしてコストの問題が挙げられます。膨大なログデータはログに対するストレージ料金を増大させると共に、分析や可視化に際してクエリで求められるコンピュートのコストも無視できなくなっていきます。近頃 Repro でもコンテナのログの管理においてこの問題が顕著になってきました。Repro のバックエンドシステムは ECS 上のコンテナで実現され、ログの閲覧・管理のため外部のログ収集サ
- go
- golang
- parquet
- fluentd
- ツール
AWS データレイク事例祭り登壇資料
- 59 users
- speakerdeck.com/yuki_saito
- テクノロジー
- 2022/06/27
AWS データレイク事例祭り登壇資料です。
- datalake
- あとで読む
- aws
- データ
- 学習
- data
- 資料
データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/14
というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。背景 / 前提データウェアハウスのテーブルを社内に広く提供したい初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともあるデータウェアハウスのバージョンを場面に応じて複数提供できると都合がよい一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい
PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
- 57 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/09/24
日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, （休んでいる間のリハビリがてら*1）PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤（ちなみにメジャーリーグです）を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのかどのような処理, どのようなユースケースで動かしているのかこれらをどのようなアーキテクチャで実現したのか以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて（2022/10/15 16:00-16:30）」の予告編でもあります. なので, 後日のトークをお楽しみに
S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
- 55 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/16
本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない！AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。「データはとりあえずS3に溜めておけ！」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか？本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。概要データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか？データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ
- aws
- s3
- あとで読む
- datalake
データ基盤のメタデータを継続的に管理できる仕組みを作る（ペパボ編） / pepabohatena
- 55 users
- speakerdeck.com/k1low
- テクノロジー
- 2020/05/14
ペパボ・はてな技術大会〜@オンライン https://pepabo.connpass.com/event/174331/
データの価値を失わないためのData Reliability
- 51 users
- speakerdeck.com/tanakarian
- テクノロジー
- 2020/02/06
dbtを活用したデータ基盤の論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
- slide
- あとで読む
- データ
- data
LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
- 50 users
- logmi.jp
- テクノロジー
- 2020/07/22
2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション菊地悠氏：Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ
Apache Arrowの最新情報（2019年9月版） - 2019-09-30 - ククログ
- 48 users
- www.clear-code.com
- テクノロジー
- 2019/09/30
Apache ArrowのPMC（Project Management Commitee、プロジェクト管理チームみたいな感じ）のメンバーの須藤です。みなさんはApache Arrowを知っていますか？Apache Arrowは数年後にはデータ処理界隈で重要なコンポーネントになっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので1年ほど前にApache Arrowの最新情報（2018年9月版）をまとめました。この1年ですごくよくなったので2019年9月現在の最新情報を紹介します。私は、PMCの中では唯一の日本人1で、コミット数は2番目に多い2ので、日本ではApache Arrowのことをだいぶ知っている方なはずです。Apache Arrowの情報は日本語ではあまりないので日本語で紹介します。ちなみに、英語ではいろいろ情報があります。有用な情報源は
Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
- 46 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/05/15
個人開発（趣味プロジェクト）でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクトヘルスケア周りの自分専用プロダクト開発この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきたクラウドにおけるサービスの選び方・スケール（=拡張）するときに気をつけるべき勘所みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう！という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは（この記事を読んだ皆様の）状況
- GCP
- あとで読む
- 開発
- google
- cloud
- データ
DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
- 46 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/15
こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。データ基盤の全体像まずは、簡単にデータ基盤の全体像を紹介します。左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど
Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog
- 42 users
- tech.gunosy.io
- テクノロジー
- 2021/08/12
はじめに Baikal について Baikal を支える技術と工夫 AWS アカウント Terraform ワークフロー基盤 Athena Lake Formation アーキテクチャ Extract & Load データ生成元 AWS アカウントにある RDS からデータ抽出データ生成元 AWS アカウントにある DynamoDB からデータ抽出社外の API からデータ抽出 Transform workspace に配置されたデータの変換データ生成元 AWS アカウント内の生ログ変換ウェアハウス内での加工 Share 今後の課題開発の一部を他チームへの委譲データ異常検知 BI ツールの導入はじめに DRE チームの hyamamoto です。新卒の方々が入社されて 4 ヶ月ということで、時の流れの速さを感じています*1。なお、現在、新卒の方々でリレー方式でブログを書いて
Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
- 40 users
- blog.engineer.adways.net
- テクノロジー
- 2022/07/22
こんにちは佐藤です。今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。背景 Dataformについて導入して良かったこと依存関係がわかりやすいクエリのテスト工夫した点フォルダの構成についてデータセット名、テーブル名についてシャーディングテーブルの定義について最後に背景現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい
データ基盤の品質向上への取り組み - Classi開発者ブログ
- 40 users
- tech.classi.jp
- テクノロジー
- 2022/07/22
こんにちは、データエンジニアの石井です。先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。データ基盤の状態把握マルチクラウドにおけるデータ基盤全体の状態把握ができていなかったデータ基盤の実行状態（SUCCESS, FAIL, RUNNINGなど）の把握が、
- データ
- あとで読む
自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
- 39 users
- blog.brainpad.co.jp
- テクノロジー
- 2022/07/07
「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster（アールトースター）」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します！こんにちは、プロダクトビジネス本部開発部の柴内（データ基盤チーム）です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。背景データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイクデータレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス
- BigQuery
- SQL
- データ
- あとで読む
- Test
- data
3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools
- 38 users
- findy-tools.io
- テクノロジー
- 2024/07/29
公開日 2024/07/29更新日 2024/07/313フェーズに分けて振り返る atama plus データアーキテクチャ変遷こんにちは、atama plus株式会社でEngineering Managerや、SRE、データ基盤などplatform系チームのオーナーをしております、前田（ @kzk_maeda）と申します。 atama plusでは「教育に、人に、社会に、次の可能性を。」をミッションに、全国の生徒さんに新しい学習体験を届けるため奮闘しています。その手段として、AIを用いてパーソナライズされた学習体験を提供しております。その実現のためには生徒さんの学習データを如何に活用していくかは非常に重要な要素です。他にも、データに基づいた意思決定、コンテンツ改善のための指標トラッキング、顧客コミュニケーションなど、様々なところでデータを活用する動きがあり、年々その需要と活用幅は広
- tech
- あとで読む
- web
分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
- 37 users
- engineering.linecorp.com
- テクノロジー
- 2022/01/31
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe（以下、IU）と呼ばれており、LINEで扱うすべてのデ
- 分析
- あとで読む
- データ
- 組織
- tech
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
- 36 users
- engineers.ntt.com
- テクノロジー
- 2022/08/09
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
- aws
- データ
- CSV
- NTT
- blog
[レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
- 36 users
- dev.classmethod.jp
- テクノロジー
- 2021/04/05
[レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました（SQLを触っている方はピンとくるイベント名ではないでしょうか）。「Fishtown Analytics社って何やってる会社？」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。イベント概要公式 Kimball in