DataLakeの人気記事 19件 - はてなブックマーク

1 - 19 件 / 19件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果1 - 19 件 / 19件

データ収集の基本と「JapanTaxi」アプリにおける実践例
- 321 users
- www.slideshare.net/tetsutarowatanabe
- テクノロジー
- 2020/08/19
データ収集の基本として、データソース毎に典型的なデータ収集方法を整理して説明しています。またJapanTaxiアプリにおいてどのように実践しているかを説明しています。Read less
- データ
- あとで読む
- データ分析
- bigquery
- db
- data
- 分析
- システム
- architecture
- datalake
Jupyter(Python)とBigQueryによるデータ分析基盤のDevOps #pyconjp // Speaker Deck
- 277 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2017/09/08
PyCon JP 2017 の発表資料です。ジャンルは「業務利用事例」となります。追記1. PyCon JP 2017 ベストトークアワード優秀賞を受賞しました！追記2. http://yuzutas0.hatenablog.com/entry/2017/09/12/203000 に補足を掲載しています！
- bigquery
- jupyter
- python
- devops
- データ分析
- あとで読む
- 分析基盤
- pyconjp
- analytics
- データ
新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
- 274 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/11/24
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。以前に「AWS Lake Formationでデータレイク体験！」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。なぜデータレイクハウスが注目されているのか？データウェアハウスの特徴・課題データレイクの特徴・課題データレイクハウスの特徴データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを
- アーキテクチャ
- あとで読む
- データ
- datalake
- aws
- Azure
- 機械学習
- architecture
- BI
- tech
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 244 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw
- DWH
- BI
- あとで読む
- データ
- data
- slide
- datalake
- platform
- bigquery
AWSで“データのサイロ化”を防げ　すべてのデータを1ヶ所に集めるデータレイクの作り方
- 242 users
- logmi.jp
- テクノロジー
- 2021/04/26
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基礎について紹介しました。企業規模に関係なく起こるデータのサイロ化野口真吾氏（以下、野口）：みなさんこんばんは。本日は「検索インフラ Tech Talk!」ということで、検索インフラから少し広げた話題にはなるんですが、「AWSを用いたデータレイクの基礎」というお話をします。よろしくお願いします。最初に簡単に自己紹介します。アマゾンウェブサービスジャパンでスタートアップ担当のソリューションアーキテクトをしている野口真吾と申します。Twitterでは＠nogというIDを使って活
- aws
- あとで読む
- データ
- データレイク
- インフラ
- DB
- data
「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
- 208 users
- aws.amazon.com
- テクノロジー
- 2020/06/19
Amazon Web Services ブログ「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開去年よりAWSのメンバー４名（志村、上原、関山、下佐粉）でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新：第4回の資料を追加公開しました以下よりご覧いただけます。(PDFフ
- aws
- datalake
- あとで読む
- データレイク
- 資料
- アーキテクチャ
- amazon
- db
- データ
- data
事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
- 203 users
- speakerdeck.com/shinu
- テクノロジー
- 2020/08/19
Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者：しんゆう＠データ分析とインテリジェンス Twitter：https://twitter.com/data_analyst_
100倍で考える - Preferred Networks Research & Development
- 176 users
- tech.preferred.jp
- テクノロジー
- 2014/10/06
私が最近強く印象に残った言葉が10倍で物事を考えるです[wired]。これが私の記憶の中で拡大解釈され、今は100倍で物事を考えるようになっています。「100倍」というのは一見すると不可能なことの例えのように思えますが、決してそんなことはありません。どの程度現実的か例をあげて考えてみましょう。 DWH（DBと考えても良いです）という分野を考えてみます*1。 *1 この分野は専門家ではないのであくまで外から見ている素人の意見です。 2014年10月現在 Google BigQueryは1GBの保存に月あたり約3円、クエリ時1TBスキャンあたり500円という価格設定です。基本的なDBの操作は全部できて、その上でユーザーが自由に関数を定義できて、画面とつながって結果が数十秒で返ってきてです。これはこの分野を知る人にとっては衝撃的な価格です。 1昔前、DWHの世界では製品が数千万から数億円
- 考え方
- PFI
- BigQuery
- redshift
- business
- google
- 仕事
- innovation
- イノベーション
- マネジメント
DeNA流データエンジニアリングの極意
- 167 users
- speakerdeck.com/sonots
- テクノロジー
- 2017/02/18
Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-niokerukuraudowohuo-yong-sitaji-jie-xue-xi-ji-pan-falsegou-zhu を参照。
- DeNA
- データ分析
- あとで読む
- etl
- bigdata
- devsumi
- sonots
- development
- data
- hdfs
DeNAの分析を支える分析基盤
- 143 users
- www.slideshare.net/kenshinyamada5
- テクノロジー
- 2016/02/02
Kenshin YamadaGeneral Manager, Analytics Infra Department at DeNA
- DeNA
- データ分析
- Hadoop
- Spark
- Elasticsearch
- 分析
- analytics
- analysis
- ゲーム
- data
カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 - Retty Tech Blog
- 137 users
- engineer.retty.me
- テクノロジー
- 2017/06/13
こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie（@chie8842）です。好きなたべものは焼肉とみかんです。現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。はじめに - カラムナフォーマットとはカラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで
- Parquet
- DWH
- database
- ORC
- データ
- 分析
- format
- Retty
- DB
- あとで読む
データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0
- 129 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2018/12/03
この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。めっちゃ専門的な内容になってしまいました。ごめんなさい。某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。もくじもくじはじめに「データ基盤の3分類」と「（一般的な）技術要素」 1.データレイク（Data Lake） 2.データウェアハウス（Data Warehouse） 3.データマート（Data Mart）私が考えるデータ基盤の定義私が考える「あるべき構成」技術要素を分けるのはアンチパターン進化的データモデリングを容易にしようチームとアーキテクチャを選ぶまとめ参考余談追記はじめにデータ基盤と世間一般で言われるシステムには分類
- データ基盤
- データ分析
- BigQuery
- 分析基盤
- data
- あとで読む
- データ
- Hadoop
- sql
- database
Delta Lake とは何か - connecting the dots
- 129 users
- ktksq.hatenablog.com
- テクノロジー
- 2022/09/14
はじめに環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違いデータレイクのメリットデータレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保スケーラブルなメタデータ管理バッチとストリーミングワークロードの統合タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマエンフォースメント 2. スキーマエボリューションストレ
- databricks
- あとで読む
- データ
- db
- 機械学習
- bigdata
- hadoop
- 開発
- プログラミング
- programming
データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,
- 128 users
- chezou.hatenablog.com
- 暮らし
- 2016/05/05
先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社（前職）の一例です。データ活用が広まった流れ数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる今まで実行計画を気にして避けていたことにガ
- SQL
- DWH
- Redshift
- DataMining
- エンジニア
- あとで読む
- データ
- データ分析
- bigdata
- 分析
データ活用基盤の今〜DWH外観図〜 - クックパッド開発者ブログ
- 122 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/18
こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。外観図以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum（S3＋Glue）周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か
- dwh
- あとで読む
- データ基盤
- dataWareHouse
- cookpad
- database
- データ
- 分析
- AWS
ビッグデータ処理データベースの全体像と使い分け 2018年version
- 115 users
- www.slideshare.net/tetsutarowatanabe
- テクノロジー
- 2018/09/21
ビッグデータ処理データベースを分類し、2018/9時点で最新のプロダクトを紹介しています。Read less
- DB
- データベース
- あとで読む
- hadoop
- BigQuery
- SQL
- database
データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
- 108 users
- tech.nri-net.com
- テクノロジー
- 2021/06/01
こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma
データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
- 108 users
- developer.hatenastaff.com
- テクノロジー
- 2020/04/16
こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。データに対する知識: メタデータデータ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。このテーブル / カラムは何のためのテーブルなのか似たようなカラムとの違い集計条件の違い、などデータがどのような値を取り得るか SELECT column, COU
ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
- 101 users
- smrmkt.hatenablog.jp
- テクノロジー
- 2016/04/19
Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ
- ETL
- hadoop
- あとで読む
- ビッグデータ
- dwh
- DB
- datamining
- slideshare
- データ