本文「dataLake」を検索 - はてなブックマーク

1 - 40 件 / 144件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dataLakeの検索結果1 - 40 件 / 144件

Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬
- 673 users
- ascii.jp
- テクノロジー
- 2021/12/22
この記事はFixer Advent Calendar 9日目の記事です。はじめに最近CKADの受験して一旗上げようと画策しているなむゆです。 Kubernetesについて学ぶ中で、腕試しに使えそうな面白そうなサイトを見つけたので紹介してみようという回です。 Game of PODsとは Game of PODsとは、無料で遊べるKubernetesの問題集です。 Kubernetesクラスターにアプリケーションを展開したり、クラスターで起きている問題を解決することを通してそれらの方法を学ぶことができます。この問題集はKodeKloudというサービスに提供されている教材のひとつで、KataKodaという教材用環境サービス内でホストされている仮想環境にアクセスしてハンズオン形式で課題を解くことができることが特徴です。問題の内容としては、あるアーキテクチャが与えられて、「このアプリケーシ
- kubernetes
- あとで読む
- 学習
- k8s
- game
- ゲーム
- 勉強
- docker
- インフラ
- アーキテクチャ
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 398 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
PayPayがAWSを使い続ける理由　日本No.1のQR決済サービスを支えるインフラ構成
- 300 users
- logmi.jp
- テクノロジー
- 2021/04/06
ZOZO×一休×PayPay AWS Nightは、2020年7月22日に開催されたZOZOテクノロジーズ・一休・PayPayの3社による合同イベントです。各社それぞれAWSの活用事例を紹介します。PayPay株式会社プラットフォームチームの西中氏がPayPayのインフラの概要について話しました（記事内の情報はイベント開催時点のもの）。日本のNo.1 QRコード決済サービス西中智樹氏（以下、西中）：「PayPayでのAWS活用事例について」と題して、PayPay Platformチーム・西中が発表いたします。簡単に自己紹介します。西中智樹と申します。2018年12月よりPayPayで仕事をしていまして、現在、AWSなどのPayPayのインフラを所管するPlatformのチームに所属しています。好きなAWSサービスはEKSです。本日のセッションのアジェンダになります。この順番でお話を
- aws
- PayPay
- あとで読む
- インフラ
- kubernetes
- 運用
- 事例
- 決済
- EKS
- webサービス
LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
- 106 users
- engineering.linecorp.com
- テクノロジー
- 2021/02/03
こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。課題：このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。コード記述（ステップ1
- LINE
- あとで読む
- batch
- データ
- タスク
- engineering
- システム
- data
今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
- 99 users
- rheb.hatenablog.com
- テクノロジー
- 2019/12/11
Red Hatの須江です。本記事は赤帽エンジニア Advent Calendar 2019の10日目です。子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけデジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。そこで、2019/6/20に開催された「DX&Open Hybrid Cl
5TB/日のデータをAWS Glueでさばくためにやったこと（概要編 | Future Tech Blog - フューチャーアーキテクト
- 87 users
- future-architect.github.io
- テクノロジー
- 2018/08/28
みなさん、初めまして、お久しぶりです、こんにちは。フューチャーアーキテクト2018年新卒入社、1年目エンジニアのTIG（Technology Innovation Group）所属の澤田周吾です。大学では機械航空工学を専攻しており、学生時代のインターンなどがキッカケで入社を決意しました。実は、本記事でフューチャーテックブログの2記事目となります。インターン時代もジャガイモARの記事を書かせて頂きました。入社してからもこうして業務で学んだIT技術を記事に書くという機会を貰え、なんだか懐かしいやら感慨深いやらの思いで一杯です。さて、3ヶ月の新人研修後にすぐに配属されたプロジェクトで、AWSを使ったビックデータ分析のための基盤構築をお手伝いしています。わたしは分析のための前処理であるETL（Extract、Transform、Load）処理部分をちょっと変わった性格の先輩方と一緒に開発
- Glue
- aws
- Python
- あとで読む
- etl
- 分散処理
- データ
PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
- 57 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/09/24
日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, （休んでいる間のリハビリがてら*1）PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤（ちなみにメジャーリーグです）を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのかどのような処理, どのようなユースケースで動かしているのかこれらをどのようなアーキテクチャで実現したのか以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて（2022/10/15 16:00-16:30）」の予告編でもあります. なので, 後日のトークをお楽しみに
『データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏
- 52 users
- try-and-matome.hatenablog.jp
- テクノロジー
- 2017/03/01
ビッグデータ分析及び環境構築に携わっているものとして、タイトルと中身を一目見て『これは！』と思い抽選に申し込み。晴れて当選する事出来たので、2017/02/28の仕事上がりで参加してきました。当エントリは『WebサービスやiOS/Androidアプリを対象とした、インハウスのデータ分析基盤を開発しているエンジニアが、どんな基盤を作り、運用し、利用者に広めるためにどんな取り組みをしているのか、苦労を分かち合いながらノウハウを共有する場』(※connpassイベントページより抜粋)として設けられた当イベントに関する参加メモです。データ分析基盤Night #1 - connpass 2017/02/28 データ分析基盤Night #1 #データ分析基盤Night - Togetterまとめ「リブセンスのデータ分析基盤の全貌」発表資料聴講メモ Q&A 「Rettyのデータ分析基盤について
LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
- 50 users
- logmi.jp
- テクノロジー
- 2020/07/22
2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション菊地悠氏：Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ
Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
- 46 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/05/15
個人開発（趣味プロジェクト）でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクトヘルスケア周りの自分専用プロダクト開発この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきたクラウドにおけるサービスの選び方・スケール（=拡張）するときに気をつけるべき勘所みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう！という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは（この記事を読んだ皆様の）状況
- GCP
- あとで読む
- 開発
- google
- cloud
- データ
DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
- 46 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/15
こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。データ基盤の全体像まずは、簡単にデータ基盤の全体像を紹介します。左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど
Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO
- 45 users
- dev.classmethod.jp
- テクノロジー
- 2016/12/05
先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。（意外な結果が...）カラムナフォーマット『Parquet』とはデータ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮
- Parquet
- aws
- athena
- amazon
- あとで読む
自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
- 39 users
- blog.brainpad.co.jp
- テクノロジー
- 2022/07/07
「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster（アールトースター）」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します！こんにちは、プロダクトビジネス本部開発部の柴内（データ基盤チーム）です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。背景データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイクデータレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス
- BigQuery
- SQL
- データ
- あとで読む
- Test
- data
kinneko@転職先募集中の日記
- 39 users
- kinneko.hatenadiary.org
- テクノロジー
- 2005/08/26
反省をこめて、記録に残しておく。 Azure DataLake Storageから、Azure Storage Explorer経由でダウンロードしたJSONファイル。レコードはファイルごとに複数入っている。シンプルにcatで連結して処理したのだけど、末尾ににだけ改行がない状態だったので、次のファイルの先頭行が処理されないことになってしまった。オリジナルのデータを加工するのは、今後のためにも気が引けるし、ワンライナーで済まなくなるのもダサい。こうしたらうまくいくのではないかな。 $ find ./* -type f -exec grep '^{' {} \; 一応うまくいった感じ。 Ubuntu 18.04でAOSPをビルドするときには、LC_ALL=Cでやろうな。 flexでコケるよ。 (いまさらそんなことしてる奴いないだろうけどなw) SmartInstallerMac_v29
- programming
- @読み続ける
- ブログ
- blog
- Linux
- プログラミング
- Android
- Python
サードパーティ取得のFacebookデータが公開状態だった件についてまとめてみた - piyolog
- 38 users
- piyolog.hatenadiary.jp
- テクノロジー
- 2019/04/09
2019年4月3日、セキュリティ企業UpGuardはAmazon S3上に公開状態にあるFacebookのデータを確認したと調査レポートを公開しました。これらのデータはサードパーティアプリがFacebookから取得したものとみられます。ここでは関連情報をまとめます。 UpGuardの調査報告 www.upguard.com レポートはUpGuard Cyber Risk Teamがまとめたもの。レポート中でS3上で2つの公開されたFacebookアプリを確認したと指摘。レポートでは確認されたデータの調査とそれに付帯するIRの顛末について記載。この件を報じる国内メディアの記事などフェイスブック５億件超の個人データアクセス可能な状態（NHK） FBのデータ、アプリ開発会社が5億件超を「放置」（日本経済新聞）ＦＢ情報５億件超「丸見え」…外部会社と共有（読売新聞）フェイスブック
- facebook
- あとで読む
- Amazon
- security
- データ
- アプリ
分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
- 38 users
- engineering.linecorp.com
- テクノロジー
- 2022/01/31
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe（以下、IU）と呼ばれており、LINEで扱うすべてのデ
- 分析
- あとで読む
- データ
- 組織
- tech
3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools
- 38 users
- findy-tools.io
- テクノロジー
- 2024/07/29
公開日 2024/07/29更新日 2024/07/313フェーズに分けて振り返る atama plus データアーキテクチャ変遷こんにちは、atama plus株式会社でEngineering Managerや、SRE、データ基盤などplatform系チームのオーナーをしております、前田（ @kzk_maeda）と申します。 atama plusでは「教育に、人に、社会に、次の可能性を。」をミッションに、全国の生徒さんに新しい学習体験を届けるため奮闘しています。その手段として、AIを用いてパーソナライズされた学習体験を提供しております。その実現のためには生徒さんの学習データを如何に活用していくかは非常に重要な要素です。他にも、データに基づいた意思決定、コンテンツ改善のための指標トラッキング、顧客コミュニケーションなど、様々なところでデータを活用する動きがあり、年々その需要と活用幅は広
- tech
- あとで読む
- web
ABEJA Insight for Retailの技術スタックを公開します (2021年10月版） - ABEJA Tech Blog
- 34 users
- tech-blog.abeja.asia
- テクノロジー
- 2021/10/22
初めに会社・事業紹介 ABEJA Insight for Retailについて技術スタック全体アーキテクチャ図 ① 映像録画・解析システム ②データ基盤部分 ③ Webダッシュボードその他 (全体共通部分) 一緒に働く仲間を募集中！最後に初めにこんにちわ。大田黒（おおたぐろ）です。暑い日が落ち着いてきて、秋(冬？）が来たなぁと感じるこの頃です。皆様いかがおすごしでしょうか。前回の「ABEJAの技術スタックを公開します (2019年11月版)」が公開されてからしばらく経ちました。引き続きエンジニアの方とお話させていただく中で、「ABEJAってよく聞くけど...実際どんなことやってるのかよくわからない」「AIのお硬いSIerって感じなんでしょ？」「社内は機械学習エンジニアばっかりなんでしょ...??」といったご質問をいただくことが多いです。今回の記事では､最新の会社や
【書評】データレイク構築・運用のノウハウを網羅的に学び始められる！『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
- 31 users
- dev.classmethod.jp
- テクノロジー
- 2020/07/21
先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました！個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました！7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目
BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC
- 31 users
- gist.github.com/SwitHak
- テクノロジー
- 2021/12/11
20211210-TLP-WHITE_LOG4J.md Security Advisories / Bulletins / vendors Responses linked to Log4Shell (CVE-2021-44228) Errors, typos, something to say ? If you want to add a link, comment or send it to me Feel free to report any mistake directly below in the comment or in DM on Twitter @SwitHak Other great resources Royce Williams list sorted by vendors responses Royce List Very detailed list NCSC-N
新機能 AWSCLIから Amazon Athena のクエリを実行する｜ DevelopersIO
- 25 users
- dev.classmethod.jp
- エンタメ
- 2017/05/21
昨日、以前から要望の多かった AWSCLI から Amazon Athena のクエリ実行する機能がリリースされましたので、早速試してみました。 Amazon Athena adds API/CLI, AWS SDK support, and audit logging with AWS CloudTrail 今回のリリースでは、AWSCLIの他に Java, .NET, Node.js, PHP, Python, Ruby, Go, 及び C++ で利用可能な AWS SDK を使用して、REST API 経由で Amazon Athena からもクエリを実行できるようになりました。詳細については、APIリファレンスおよびCLIガイドを参照してください。サポートされた機能ペタバイトクラスのクエリ実行も想定した Amazon Athena なので、クエリ実行は、「クエリの非同期実行〜ク
- AWS
- athena
- あとで読む
- amazon
Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
- 25 users
- dev.classmethod.jp
- テクノロジー
- 2019/11/04
クラスメソッドの石川です。先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。表題の通り、データレイクについてお話をさせて頂きました。スライドこちらがスライドになります。こんな事を話してたはじめにデータレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめまとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ
- AWS
- あとで読む
【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた（公開資料URLあり） | DevelopersIO
- 23 users
- dev.classmethod.jp
- テクノロジー
- 2019/10/31
大阪オフィスのちゃだいんです。本日はAWS Pop-Up Loft Osakaにて、ハンズオンに参加してきました。今回はそのハンズオンの内容をご紹介したいと思います。その前に、 AWS Pop-Up Loft Osakaは期間限定でオープンしており、本日が最終日でした...（涙）大阪のど真ん中一等地に、無料でコーヒーももらえるコワーキングスペース。中之島の高層ビル２６階からの眺めを楽しみながら、優雅にパソコンパチパチできる稀有な場所でした。どんな場所だったのかは、このブログをご覧ください。【AWS Loftが大阪に期間限定オープン！】オープンしたてのAWS Pop-Up Loft Osakaで早速リモートワークしてみた #awsloft ハンズオン概要 DataLake ハンズオン OCT 31,2019 About the event（上記ページより抜粋）幅広いデータソース
- aws
- あとで読む
【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた（ハンズオン1） | DevelopersIO
- 23 users
- dev.classmethod.jp
- テクノロジー
- 2019/10/07
こんにちは。DA事業本部の春田です。管理のしやすさや拡張性の高さで注目を集めている、次世代のデータ分析基盤Data Lakeについて、ハンズオンにトライしてみました。 Datalake Handson 本記事では、Lab1~Lab3のニアリアルタイムデータ分析環境（スピードレイヤ）を構築していきます。 Lab1: はじめの準備 Lab1: はじめの準備はじめにハンズオン共通で使用するVPC、EC2、IAM Roleを設定していきます。まずEC2で使用するキーペアを作成します。上で作成したキーペア datalake-handson-haruta を用いて、CloudFormationからEC2インスタンスを作成します。 EC2の構築が完了したら、 datalake-handson-haruta の公開鍵でSSHログインし、 /root/es-demo/testapp.log にログが吐
- aws
- あとで読む
データレイクの新しいカタチ：Open Table Formatの紹介 - 流沙河鎮
- 22 users
- bering.hatenadiary.com
- テクノロジー
- 2023/07/18
はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の使いどころと違いについてを特に参考にした。 Open Table Formatとは？ Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム
ヤフー発の OSS 、Multiple-Dimension-Spread（MDS）の紹介
- 21 users
- techblog.yahoo.co.jp
- テクノロジー
- 2018/12/26
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめにこんにちは。ヤフー株式会社データ＆サイエンスソリューション統括本部データプラットフォーム本部データデリバリー部の井島＆大戸です。今回は、ヤフー株式会社（以下ヤフー）が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介します。 Multiple-Dimension-Spreadとは Multiple-Dimension-Spread（以下MDS）はヤフーが開発したカラムナストレージフォーマットです。大規模なデータを蓄えておく仕組みを湖として捉えたものをデータレイクといいます。 MDS はデータレイクにデータを保存、利
- hadoop
- Yahoo!
- データ
Raspberrypi zero WとABEJA Platformを活用した侵入者通知アプリを作る - Y's note
- 19 users
- yut.hatenablog.com
- テクノロジー
- 2019/08/26
やりたいこと家庭で簡単に防犯カメラを作りたいと思い、下記のアイテムを利用して作ってみました。僕の家はマンションの１階にあり、5〜6畳分の庭が付いています。庭内には植物・野菜を栽培したり洗濯物を干しているので、1階に住む住人としては不審者が入ってこないかどうかが気になったりします。そこで、Raspberrypi zero W, camera module, ABEJA Platform, LINE Messaging APIを用いて、不審者が庭内で検出された場合にLINEに通知が来る仕組みを作りたいと思います。LINEに通知するのは極力リアルタイムで検知したいというのと、写真で証拠を記録し通報に利用できるというメリットがあります。家庭のセキュリティサービスを展開しているものもありますが、初期工事費用や月額でそれなりにするので、もっと簡易な防災通知ができたらと思って試してみました。今回のR
Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
- 19 users
- tech.enigmo.co.jp
- テクノロジー
- 2020/12/20
こんにちは。今年4月にエニグモに入社したデータエンジニアの谷元です。この記事は Enigmo Advent Calendar 2020 の20日目の記事です。目次はじめにそもそも同期処理とは？ Airflowによる同期処理検証時のコードサンプルをAirflow画面で見ると？同期遅延なし時のAirflowログ同期遅延あり時のAirflowログ同期タイムアウト時のAirflowログ所感最後にはじめにコロナ禍の中、皆さんどのようにお過ごしでしょうか。私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、
- DB
- あとで読む
- 開発
- ブログ
bashスクリプトのエラー処理のベストプラクティス – marketechlabo
- 19 users
- www.marketechlabo.com
- テクノロジー
- 2020/02/06
データ処理バッチでシェルスクリプトは便利データ処理などでバッチプログラムを書くことは多い。Pythonなどのプログラム言語を使って全部記述する方法もあるし、最近ではGUIのワークフローを描けるツールも出てきている。ただシェルスクリプトは依然として強い。シェルスクリプトは概して動作が高速で、イレギュラー処理に対しても柔軟に対応できる。gcloudやawscliなどのコマンドを使って記述できるので、できないことはない。機能がなければコマンドをインストールすることも可能。困ったときにも確実にゴールにたどり着くメリットがある。プログラム言語だとライブラリの出来に依存するし、ワークフロー系のツールは機能が実装されていないと詰む。イレギュラー処理を扱えない場合がある。便利なツールが出てきている時代ではあるが、シェルスクリプトを覚えておくのはおすすめである。バッチ処理ではエラーハンドリングが必須だ
【週刊 Ask An Expert #10】サーバーレス化を検討している？そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services
- 18 users
- aws.amazon.com
- テクノロジー
- 2019/06/25
AWS Startup ブログ【週刊 Ask An Expert #10】サーバーレス化を検討している？そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft こんにちは、スタートアップソリューションアーキテクトの松田 (@mats16k) です。だんだん暑くなってきましたが、いかがお過ごしでしょうか。私は半ズボンでの出勤を解禁しました（スタートアップなら普通ですよね？）。今回は週刊 Ask An Expert 記念すべき第10回目をお届けしたいと思います。「参考になった！」「いい内容だ！」と思っていただけたら、ぜひハッシュタグ #AWSLoft を付けてシェアしてください。もちろん、改善点・ご要望もお待ちしております。 Ask An Expert ? さて、皆さん AWS Loft Tokyo はご存知でしょうか？目黒セントラ
「AWSではじめるデータレイク」出版記念データレイクはじめの一歩.pdf
- 17 users
- pages.awscloud.com
- テクノロジー
- 2020/06/20
1 「AWSではじめるデータレイク」出版記念データレイクはじめの一歩 2020年5月28日アマゾンウェブサービスジャパン株式会社シニアソリューションアーキテクト下佐粉昭（しもさこあきら） @simosako 2020年6月発売予定！ 2 AWSオンラインセミナーへようこそご質問を受け付けております！ • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問からピックアップしてご回答をさせていただきます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介下佐粉昭（しもさこあきら）所属：アマゾンウェブサービスジャパンシニアソリューシ
タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
- 17 users
- tech.timee.co.jp
- テクノロジー
- 2022/01/24
はじめに以前のデータ基盤 3つの問題解決と振り返り問題1: データパイプラインの更新遅延解決策実装振り返り問題2: 分析チームへのクエリ修正依頼の増加解決策実装振り返り問題3: ETLパイプラインにおける加工処理の負債解決策実装振り返りこれからの品質に関する改善はじめに初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。対象にしている読者は以下の方々です。データ品質について考えている方データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -
- dbt
- あとで読む
[AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ資料及び QA 公開 | Amazon Web Services
- 16 users
- aws.amazon.com
- テクノロジー
- 2018/04/26
Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ資料及び QA 公開こんにちは、マーケティングの鬼形です。先日(2018/4/24)開催しました AWS Black Belt Online Seminar「AWS で構築するデータレイク基盤のアーキテクチャ」の資料を公開致しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180424 AWS Black Belt Online Seminar AWSで構築するデータレイク基盤のアーキテクチャ PDF 録画（オンデマンドセミナー） Q1. データスチュワードは、DataLake の TIer 1,2,3 および DWH 全てを定義・管理するイメージでしょうか？ A1. 企業ごとに運用事情は
- aws
- S3
- architecture
- Saved For Later
- web
- あとで読む
bliki: Data Lake
- 16 users
- martinfowler.com
- テクノロジー
- 2015/02/06
Data Lake is a term that's appeared in this decade to describe an important component of the data analytics pipeline in the world of Big Data. The idea is to have a single store for all of the raw data that anyone in an organization might need to analyze. Commonly people use Hadoop to work on the data in the lake, but the concept is broader than just Hadoop. When I hear about a single point to pul
DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog
- 15 users
- engineers.ntt.com
- テクノロジー
- 2024/07/30
本記事では6月に開催されたDATA+AI Summit 2024でGeneral Availabilityが発表されたDatabricksのDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal Formatの機能を有効にしたテーブルを作成し、Amazon AthenaからApache Iceberg形式でクエリを発行するサンプルを用いて、機能の使い方と本機能のメリットについて解説します。目次目次はじめにデータレイクとOpen Table For
- NTTCom
- db
- あとで読む
- blog
[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法資料及び QA 公開 | Amazon Web Services
- 15 users
- aws.amazon.com
- テクノロジー
- 2018/06/25
Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法資料及び QA 公開こんにちは、マーケティングの鬼形です。先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか？分析用にユーザ操作から
- dataLake
- aws
Data Meshとは何か？
- 15 users
- attsun1031.github.io
- テクノロジー
- 2021/06/09
Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基
- DataMesh
- データ基盤
ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note
- 14 users
- yut.hatenablog.com
- 暮らし
- 2019/07/08
ラーメン二郎分類器引用 : ラーメン二郎三田本店（らーめんじろう） - 三田/ラーメン | 食べログ @yutakikuchi_です。皆さん、ラーメン二郎は好きですか？好きですよね？僕は大学の目の前にラーメン二郎があったので足繁く通っていました。しかし、ラーメン二郎初心者にとっては、麺の画像を見て、それが「ラーメン二郎」なのか「長崎ちゃんぽん」なのかが見分けが付きづらいと思います。よってDeepLearningを用いて、それらの分類を自動化する仕組みをABEJA Platformを使って実装する方法について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。既にABEJA Platform、ABEJA Platform Ann
- 機械学習
- AI
Query any data source with Amazon Athena’s new federated query | Amazon Web Services
- 13 users
- aws.amazon.com
- テクノロジー
- 2019/11/28
AWS Big Data Blog Query any data source with Amazon Athena’s new federated query April 2024: This post was reviewed for accuracy. Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for w
- aws
- あとで読む
Data lakeとは？データ分析基盤をゼロから作るプロセス - Qiita
- 13 users
- qiita.com/blacksun174
- テクノロジー
- 2019/12/02
はじめまして、Newspicksでエンジニアしています、Hoàngです。新卒で入社し、現在はNewspicksを支えるデータ分析基盤を作っています。そのノウハウをシェアできればと思い、この記事を書きました。なぜData lakeが必要なのか？ (AWSより引用) サービスに機械学習、AIを導入したい思ったことがありますでしょうか。あるいは、ユーザーがどのようにサービスを利用しているかを分析したいと思ったことがありますか。ユーザ分析や機械学習をするために本番のデータベースにアクセスしたり、クエリを投げたりしてはいけません。分析、機械学習の用途で本番サービスに負荷を与えると、最悪の場合本番サービスを停止させてしまうこともあります。本番データと完全に同期されたデータ基盤があれば、このような問題にも対処できます。また、データ分析はSQLを使うのですが、SQLではDynamoDB, Mong