DataLakeの人気記事 180件 - はてなブックマーク

1 - 40 件 / 180件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果1 - 40 件 / 180件

データ収集の基本と「JapanTaxi」アプリにおける実践例
- 321 users
- www.slideshare.net/slideshow
- テクノロジー
- 2020/08/19
1. Mobility Technologies Co., Ltd. Data Engineering Study #2 データ収集の基本と「JapanTaxi」アプリにおける実践例株式会社 Mobility Technologies 渡部徹太郎 2020/8/19 2. Mobility Technologies Co., Ltd. 自己紹介 2 ID ：fetaro 名前：渡部徹太郎学生：東京工業大学でデータベースと情報検索の研究 (@日本データベース学会) 職歴： * 野村総合研究所(NRI) - オンライントレードシステム基盤 - オープンソース技術部隊 * リクルートテクノロジーズ - ビッグデータ分析基盤 * MobilityTechnologies - データエンジニアエディタ：emacs派→ InteliJ派日本AWSユーザ会(JAWS) ビッグデータ支部長
- データ
- あとで読む
- データ分析
- bigquery
- db
- data
- 分析
- システム
- architecture
- datalake
Jupyter(Python)とBigQueryによるデータ分析基盤のDevOps #pyconjp // Speaker Deck
- 276 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2017/09/08
PyCon JP 2017 の発表資料です。ジャンルは「業務利用事例」となります。追記1. PyCon JP 2017 ベストトークアワード優秀賞を受賞しました！追記2. http://yuzutas0.hatenablog.com/entry/2017/09/12/203000 に補足を掲載しています！
- bigquery
- jupyter
- python
- devops
- データ分析
- あとで読む
- 分析基盤
- pyconjp
- analytics
- データ
新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
- 272 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2022/11/24
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。以前に「AWS Lake Formationでデータレイク体験！」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。なぜデータレイクハウスが注目されているのか？データウェアハウスの特徴・課題データレイクの特徴・課題データレイクハウスの特徴データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを
- アーキテクチャ
- あとで読む
- データ
- datalake
- aws
- 機械学習
- architecture
- Azure
- BI
- tech
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 242 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg …
- DWH
- BI
- あとで読む
- data
- データ
- slide
- datalake
- bigquery
- platform
「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
- 205 users
- aws.amazon.com
- テクノロジー
- 2020/06/19
Amazon Web Services ブログ「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開去年よりAWSのメンバー４名（志村、上原、関山、下佐粉）でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新：第4回の資料を追加公開しました以下よりご覧いただけます。(PDFフ
- aws
- datalake
- あとで読む
- データレイク
- 資料
- アーキテクチャ
- amazon
- db
- データ
- data
事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
- 201 users
- speakerdeck.com/shinu
- テクノロジー
- 2020/08/19
Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者：しんゆう＠データ分析とインテリジェンス Twitter：https://twitter.com/d…
デブサミ2017「DeNAの機械学習基盤と分析基盤」講演メモ #devsumi - 元RX-7乗りの適当な日々
- 151 users
- www.na3.jp
- テクノロジー
- 2017/02/17
sonots先生の話を聞きに行ってきたので、そのメモを残しておきます。瀬尾直利氏 DeNA Co., Ltd. AIシステム部リードエンジニア DeNAの機械学習基盤ディープラーニングの基盤 => GPU基盤という認識 GPUすごくて、CPU使って30日のところ、GPUを使うと4日くらいのオーダー GPUの特徴並列処理が得意 CPUだと24coreとかのオーダー GPUでは3000〜4000core 分岐処理は苦手行列演算に向いている GPU製品 NVIDIA Tesla HPC向けにGPUシリーズ NVIDIA GeForce GRID クラウドゲーミング向け AMD FirePro NVIDIA Tesla API CUDA OpenCL DirectCompute CUDAのアーキテクチャ CPU(ホスト)からGPU(デバイス)にデータを転送 GPUで処理 GPUから
- DeNA
- 機械学習
- GPU
- あとで読む
- machinelearning
- analytics
- devsumi
- CUDA
- aws
- アーキテクチャ
カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 - Retty Tech Blog
- 137 users
- engineer.retty.me
- テクノロジー
- 2017/06/13
こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie（@chie8842）です。好きなたべものは焼肉とみかんです。現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。はじめに - カラムナフォーマットとはカラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで
- Parquet
- DWH
- database
- ORC
- データ
- 分析
- format
- Retty
- DB
- あとで読む
データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0
- 129 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2018/12/03
この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。めっちゃ専門的な内容になってしまいました。ごめんなさい。某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。もくじもくじはじめに「データ基盤の3分類」と「（一般的な）技術要素」 1.データレイク（Data Lake） 2.データウェアハウス（Data Warehouse） 3.データマート（Data Mart）私が考えるデータ基盤の定義私が考える「あるべき構成」技術要素を分けるのはアンチパターン進化的データモデリングを容易にしようチームとアーキテクチャを選ぶまとめ参考余談追記はじめにデータ基盤と世間一般で言われるシステムには分類
- データ分析
- データ基盤
- BigQuery
- 分析基盤
- data
- データ
- あとで読む
- Hadoop
- sql
- database
データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,
- 128 users
- chezou.hatenablog.com
- 暮らし
- 2016/05/05
先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社（前職）の一例です。データ活用が広まった流れ数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる今まで実行計画を気にして避けていたことにガ
- SQL
- DWH
- Redshift
- DataMining
- エンジニア
- あとで読む
- データ
- データ分析
- bigdata
- 分析
データ活用基盤の今〜DWH外観図〜 - クックパッド開発者ブログ
- 122 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/18
こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。外観図以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum（S3＋Glue）周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か
- dwh
- あとで読む
- データ基盤
- dataWareHouse
- cookpad
- database
- データ
- 分析
- AWS
Gunosyのデータ分析基盤、ログ基盤の全容
- 104 users
- speakerdeck.com/moyomot
- テクノロジー
- 2017/02/28
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
- gunosy
- データ分析
- redash
- ログ
- あとで読む
- データ
- infrastructure
- analytics
- BigQuery
- slide
ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
- 101 users
- smrmkt.hatenablog.jp
- テクノロジー
- 2016/04/19
Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ
- ETL
- hadoop
- あとで読む
- ビッグデータ
- dwh
- DB
- datamining
- slideshare
- データ
（翻訳）Apache Arrowと「pandasの10項目の課題」 - Qiita
- 89 users
- qiita.com/tamagawa-ryuji
- テクノロジー
- 2017/09/24
始めに：pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 2017/9/21（木） Apache Arrow、pandas、pandas2、そして最近の私の作業の大まかな方向性と視界が開けてきている未来に関して、これから一連のポストを書いていきます。このポストはその第一弾です。少々量があり、全体に技術的な色合いが濃くなっていますが、興味を持たれたなら読み進めていってください。このポストでは、pandasの内部構造に関する主要な問題のいくつかと、それらに対して私が着実に進めてきた現実的な解決策の計画と構築について、できる限り簡潔に説明しようと思います。外から見
- arrow
- pandas
- python
- あとで読む
- apache
- c++
データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
- 85 users
- tech.nri-net.com
- テクノロジー
- 2021/05/10
こんにちは佐々木です。いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。構造化データと半構造化データ、非構
スタディサプリを支えるデータ分析基盤～設計の勘所と利活用事例～
- 85 users
- www.slideshare.net/beniyama
- テクノロジー
- 2017/02/17
The document is comprised of technical documentation copyrighted by Recruit Marketing Partners Co., Ltd. It includes code snippets and configuration examples for tools like AWS Lambda, Kinesis, Presto, Hive, Embulk and Treasure Data. The documentation provides guidance on building data pipelines, ETL processes, and reporting solutions using these technologies.Read less
【k8s合宿】 Kubernetesのログ分析環境を作る - Uzabase for Engineers
- 82 users
- tech.uzabase.com
- テクノロジー
- 2018/02/01
こんにちは、SPEEDAのSREチームでエンジニアをしている阿南です。SPEEDAのSREチームでは、昨年末kubernetesについて理解を深めるために合宿を行いました。やり方はA〜Cの３チームに分けて、それぞれのチームでkubernetesに関することを調査、構築するという形式で、今回はAチームが実際にやってみた内容についてブログを書きたいと思います。（それぞれのチームでかなりボリュームがあるので、複数回に渡って連載的な形でお届けしたいと思います。） Aチームでは、kubernetesを本番環境に投入するにあたり、ログ収集周りをあまり調査できてないなと感じ、GCP上に環境を作ってみることにしました。構築する環境構築手順クラスター構築 wordpress + MySQL構築 Fluentdイメージの作成 ConfigMap設定 DaemonSet設定まとめお知らせ構築する環境
- Kubernetes
- fluentd
- あとで読む
- BigQuery
- ログ
- GKE
- k8s
- container
- log
データレイク構築後の四方山話 #DPM / 20190905
- 77 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2019/09/06
Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/
N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
- 66 users
- blog.nnn.dev
- テクノロジー
- 2022/07/22
はじめに昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。はじめに N予備校における従来のデータの取り扱い現在の取り組み本番環境のデータのBigQueryへの蓄積データ活用のプロトタイピングそのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討分析対象のデータ拡充データの管理体制機械学習技術等の活用おわりに We are hiring! N予備校における従来のデータの取り扱いまず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現
民間企業におけるデータ整備の課題と工夫 / 20220305
- 64 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2022/03/07
第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください…
AWS データレイク事例祭り登壇資料
- 59 users
- speakerdeck.com/yuki_saito
- テクノロジー
- 2022/06/27
AWS データレイク事例祭り登壇資料です。
- datalake
- あとで読む
- aws
- データ
- 学習
- data
- 資料
S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
- 55 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/16
本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない！AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。「データはとりあえずS3に溜めておけ！」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか？本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。概要データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか？データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ
- aws
- s3
- あとで読む
- datalake
Apache Arrowの最新情報（2019年9月版） - 2019-09-30 - ククログ
- 48 users
- www.clear-code.com
- テクノロジー
- 2019/09/30
Apache ArrowのPMC（Project Management Commitee、プロジェクト管理チームみたいな感じ）のメンバーの須藤です。みなさんはApache Arrowを知っていますか？Apache Arrowは数年後にはデータ処理界隈で重要なコンポーネントになっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので1年ほど前にApache Arrowの最新情報（2018年9月版）をまとめました。この1年ですごくよくなったので2019年9月現在の最新情報を紹介します。私は、PMCの中では唯一の日本人1で、コミット数は2番目に多い2ので、日本ではApache Arrowのことをだいぶ知っている方なはずです。Apache Arrowの情報は日本語ではあまりないので日本語で紹介します。ちなみに、英語ではいろいろ情報があります。有用な情報源は
Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO
- 45 users
- dev.classmethod.jp
- テクノロジー
- 2016/12/05
先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。（意外な結果が...）カラムナフォーマット『Parquet』とはデータ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮
- Parquet
- aws
- athena
- amazon
- あとで読む
リブセンスのデータ分析基盤の全貌
- 43 users
- speakerdeck.com/livesense
- テクノロジー
- 2017/03/01
データ分析基盤Night #1 yusaku omasa
分析者から見た使いにくいデータ基盤の話 | リクルートテクノロジーズ　メンバーズブログ
- 42 users
- techblog.recruit.co.jp
- 政治と経済
- 2018/12/25
リクルートテクノロジーズのアドベントカレンダーの 12/25 の分です。要するにデータが潤沢なデータレイクと、秩序だったデータウェアハウスがほしいという話をします。データマートは分析者も必要に応じて作ればいいので、なくても問題ないです。データレイク、データウェアハウス、データマートについては本記事で解説します。とはいえ、「データあるから分析してくれ」を最初に取りかかる場合は、秩序だったデータウェアハウスが無いはずなので、データレイクに大量のデータがあれば贅沢は言いません。実はデータがない状態は本記事では想定していません。本アドベントカレンダーでは似た内容を先に書かれましたが、本ブログでは使う側の視点なのでちょっと違います。とはいえ、目指す姿はだいたい似るはずです。 http://yuzutas0.hatenablog.com/entry/2018/12/08/235900 なんのため
分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
- 41 users
- devblog.thebase.in
- テクノロジー
- 2024/03/27
はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS
データ分析基盤Crois
- 40 users
- speakerdeck.com/rcoict
- テクノロジー
- 2019/06/06
Machine Learning Casual Talks #10 での発表資料です。リクルートの横断組織であるリクルートコミュニケーションズで開発しているデータ分析基盤のCroisについて紹介させていただきました。
- 機械学習
- あとで読む
- データ
- AWS
- 組織
- 開発
Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
- 40 users
- blog.engineer.adways.net
- テクノロジー
- 2022/07/22
こんにちは佐藤です。今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。背景 Dataformについて導入して良かったこと依存関係がわかりやすいクエリのテスト工夫した点フォルダの構成についてデータセット名、テーブル名についてシャーディングテーブルの定義について最後に背景現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい
データ基盤の品質向上への取り組み - Classi開発者ブログ
- 40 users
- tech.classi.jp
- テクノロジー
- 2022/07/22
こんにちは、データエンジニアの石井です。先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。データ基盤の状態把握マルチクラウドにおけるデータ基盤全体の状態把握ができていなかったデータ基盤の実行状態（SUCCESS, FAIL, RUNNINGなど）の把握が、
- データ
- あとで読む
Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
- 38 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/08/26
はじめにこんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。はじめに概要データレイクとはデータカタログとはなぜAmazon DataZoneが必要か（AWS Guleとの違い） Amazon DataZoneとはサービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる構成概要データ準備ドメインとデータポータルの作成プロジェクトの作成環境の作成データカタログの作成データアセッ
- データ
- あとで読む
- aws
- Amazon
- サービス
- DataZone
AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
- 36 users
- engineers.ntt.com
- テクノロジー
- 2022/08/09
はじめにこんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり
- aws
- データ
- CSV
- NTT
- blog
[レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
- 36 users
- dev.classmethod.jp
- テクノロジー
- 2021/04/05
[レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました（SQLを触っている方はピンとくるイベント名ではないでしょうか）。「Fishtown Analytics社って何やってる会社？」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。イベント概要公式 Kimball in
私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO
- 34 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/27
データアナリティクス事業本部の鈴木です。自分がデータ分析基盤の技術調査をする際、こういうことに気をつけるとうまく行きやすいなというポイントがまとまってきたので、ブログにしてみました。あくまで1例として参考になればと考えています。課題意識ほかのメンバーで、技術調査に慣れていない方に調査をお願いするとき、初めはある程度やり方を説明したり、レビューを手厚くしたりすると思います。私が初めて技術調査をしたときは、やり方が分からず、先輩にかなりお世話になったことを覚えています。最近では、私からほかのメンバーに調査をお願いをする側になる場面が少しづつ出てきたので、「お願いしたいことはある程度ブログにしておいた方が、聞く方が言われたことを全部覚えてなくていいし、絶対ええやろな〜」と思い、記事にしてみました。場面としてはデータ分析基盤を構築する上で必要になる技術調査を想定しています。技術調査の
AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する | Amazon Web Services
- 33 users
- aws.amazon.com
- テクノロジー
- 2017/10/31
Amazon Web Services ブログ AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築するデータレイクは、大量の様々なデータを扱うという課題に対処するため、データを分析および保存するための方法としてますます一般的になっています。データレイクを使うと、組織は全ての構造化データおよび非構造化データを１つの中央リポジトリに格納できます。データはそのまま保存できるため、あらかじめ定義されたスキーマに変換する必要はありません。多くの組織は AWS をデータレイクとして使う価値を理解しています。例えば Amazon S3 は高い耐久性があり、コンピューティングとストレージの分離をしながら、オープンデータフォーマットをサポートする費用対効果の高いオブジェクトの開始ができ、全てのAWS 分析サービスと連携します。Amazon S3 はデータレイクの基礎を提供します
- AWS
- あとで読む
Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
- 32 users
- blog.cloudera.co.jp
- テクノロジー
- 2017/02/17
著者/Author: Zbigniew Branowski (Cern) 原文/Original：http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー
(翻訳) データエンジニアリングの未来 - satoshihirose.log
- 28 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2019/09/16
訳者まえがき原著者の Chris Riccomini の許可を得て以下の記事を翻訳・公開しました。 riccomini.name 下記より記事翻訳本文です。データエンジニアリングの未来私は最近、近頃のデータエンジニアリングがこれまで来た道について、また、この分野の仕事の将来について考えてきました。考えのほとんどは、私たちのチームが WePay で実践していることを背景にしています。その一方、以下に述べる考えは普遍的で、共有する価値があるものと思っています。データエンジニアリングの仕事は、組織におけるデータの移動と処理を支援することです。これには、一般的に、データパイプラインとデータウェアハウスという2つの異なるシステムが必要です。データパイプラインはデータの移動を担当し、データウェアハウスはデータの処理を担当します。これは、やや過度に単純化しています。バッチ処理とストリーム処理では
スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
- 28 users
- speakerdeck.com/recruitengineers
- テクノロジー
- 2022/01/31
2022/01/27_スタディサプリのデータ基盤を支える技術 2022 －RECRUIT TECH MEET UP #3－での、橘高の講演資料になります
Apache Arrowの最新情報（2020年7月版） - 2020-07-31 - ククログ
- 27 users
- www.clear-code.com
- テクノロジー
- 2020/07/31
Apache ArrowのPMC（Project Management Commitee、プロジェクト管理チームみたいな感じ）のメンバーの須藤です。みなさんはApache Arrowを知っていますか？最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ！」と言っていた1.0.0がついにリリースされたんです！ 1.0.0を機に安心して使えるようになります。（どう安心なのかは後で説明します。） Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在
料理きろくと機械学習
- 27 users
- speakerdeck.com/uiureo
- 学び
- 2017/10/06
【京都開催 feat.はてな】Cookpad Tech Kitchen #11 https://cookpad.connpass.com/event/64837/ 【福岡開催 feat.ペパボ】Cookpad Tech Kitchen #12 https://cookpad.connpass.com/event/64844/ で発表したものです