並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 144件

新着順 人気順

dataLakeの検索結果1 - 40 件 / 144件

  • Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬

    この記事はFixer Advent Calendar 9日目の記事です。 はじめに 最近CKADの受験して一旗上げようと画策しているなむゆです。 Kubernetesについて学ぶ中で、腕試しに使えそうな面白そうなサイトを見つけたので紹介してみようという回です。 Game of PODsとは Game of PODsとは、無料で遊べるKubernetesの問題集です。 Kubernetesクラスターにアプリケーションを展開したり、クラスターで起きている問題を解決することを通してそれらの方法を学ぶことができます。 この問題集はKodeKloudというサービスに提供されている教材のひとつで、KataKodaという教材用環境サービス内でホストされている仮想環境にアクセスしてハンズオン形式で課題を解くことができることが特徴です。 問題の内容としては、あるアーキテクチャが与えられて、「このアプリケーシ

      Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬
    • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

      ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

        データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
      • PayPayがAWSを使い続ける理由 日本No.1のQR決済サービスを支えるインフラ構成

        ZOZO×一休×PayPay AWS Nightは、2020年7月22日に開催されたZOZOテクノロジーズ・一休・PayPayの3社による合同イベントです。各社それぞれAWSの活用事例を紹介します。PayPay株式会社プラットフォームチームの西中氏がPayPayのインフラの概要について話しました(記事内の情報はイベント開催時点のもの)。 日本のNo.1 QRコード決済サービス 西中智樹氏(以下、西中):「PayPayでのAWS活用事例について」と題して、PayPay Platformチーム・西中が発表いたします。 簡単に自己紹介します。西中智樹と申します。2018年12月よりPayPayで仕事をしていまして、現在、AWSなどのPayPayのインフラを所管するPlatformのチームに所属しています。好きなAWSサービスはEKSです。 本日のセッションのアジェンダになります。この順番でお話を

          PayPayがAWSを使い続ける理由 日本No.1のQR決済サービスを支えるインフラ構成
        • LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入

          こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。 本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。 課題: このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。 コード記述(ステップ1

            LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
          • 今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ

            Red Hatの須江です。 本記事は赤帽エンジニア Advent Calendar 2019の10日目です。 子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。 セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけ デジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。 ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。 そこで、2019/6/20に開催された「DX&Open Hybrid Cl

              今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
            • 5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編 | Future Tech Blog - フューチャーアーキテクト

              みなさん、初めまして、お久しぶりです、こんにちは。 フューチャーアーキテクト2018年新卒入社、1年目エンジニアのTIG(Technology Innovation Group)所属の澤田周吾です。大学では機械航空工学を専攻しており、学生時代のインターンなどがキッカケで入社を決意しました。 実は、本記事でフューチャーテックブログの2記事目となります。インターン時代も ジャガイモARの記事 を書かせて頂きました。入社してからもこうして業務で学んだIT技術を記事に書くという機会を貰え、なんだか懐かしいやら感慨深いやらの思いで一杯です。 さて、3ヶ月の新人研修後にすぐに配属されたプロジェクトで、AWSを使ったビックデータ分析のための基盤構築をお手伝いしています。わたしは分析のための前処理であるETL(Extract、Transform、Load)処理部分をちょっと変わった性格の先輩方と一緒に開発

                5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編 | Future Tech Blog - フューチャーアーキテクト
              • PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball

                日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグです)を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのか どのような処理, どのようなユースケースで動かしているのか これらをどのようなアーキテクチャで実現したのか 以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて(2022/10/15 16:00-16:30)」の予告編でもあります. なので, 後日のトークをお楽しみに

                  PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
                • 『 データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏

                  ビッグデータ分析及び環境構築に携わっているものとして、タイトルと中身を一目見て『これは!』と思い抽選に申し込み。晴れて当選する事出来たので、2017/02/28の仕事上がりで参加してきました。 当エントリは『WebサービスやiOS/Androidアプリを対象とした、インハウスのデータ分析基盤を開発しているエンジニアが、どんな基盤を作り、運用し、利用者に広めるためにどんな取り組みをしているのか、苦労を分かち合いながらノウハウを共有する場』(※connpassイベントページより抜粋)として設けられた当イベントに関する参加メモです。 データ分析基盤Night #1 - connpass 2017/02/28 データ分析基盤Night #1 #データ分析基盤Night - Togetterまとめ 「リブセンスのデータ分析基盤の全貌」 発表資料 聴講メモ Q&A 「Rettyのデータ分析基盤について

                    『 データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏
                  • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                    2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                      LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                    • Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball

                      個人開発(趣味プロジェクト)でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクト ヘルスケア周りの自分専用プロダクト開発 この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきた クラウドにおけるサービスの選び方・スケール(=拡張)するときに気をつけるべき勘所 みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう!という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは(この記事を読んだ皆様の)状況

                        Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
                      • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                        こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                          DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                        • Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO

                          先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。(意外な結果が...) カラムナフォーマット『Parquet』とは データ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮

                            Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO
                          • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

                            「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス本部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

                              自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
                            • kinneko@転職先募集中の日記

                              反省をこめて、記録に残しておく。 Azure DataLake Storageから、Azure Storage Explorer経由でダウンロードしたJSONファイル。 レコードはファイルごとに複数入っている。 シンプルにcatで連結して処理したのだけど、末尾ににだけ改行がない状態だったので、次のファイルの先頭行が処理されないことになってしまった。 オリジナルのデータを加工するのは、今後のためにも気が引けるし、ワンライナーで済まなくなるのもダサい。 こうしたらうまくいくのではないかな。 $ find ./* -type f -exec grep '^{' {} \; 一応うまくいった感じ。 Ubuntu 18.04でAOSPをビルドするときには、LC_ALL=Cでやろうな。 flexでコケるよ。 (いまさらそんなことしてる奴いないだろうけどなw) SmartInstallerMac_v29

                                kinneko@転職先募集中の日記
                              • サードパーティ取得のFacebookデータが公開状態だった件についてまとめてみた - piyolog

                                2019年4月3日、セキュリティ企業UpGuardはAmazon S3上に公開状態にあるFacebookのデータを確認したと調査レポートを公開しました。これらのデータはサードパーティアプリがFacebookから取得したものとみられます。ここでは関連情報をまとめます。 UpGuardの調査報告 www.upguard.com レポートはUpGuard Cyber Risk Teamがまとめたもの。 レポート中でS3上で2つの公開されたFacebookアプリを確認したと指摘。 レポートでは確認されたデータの調査とそれに付帯するIRの顛末について記載。 この件を報じる国内メディアの記事など フェイスブック 5億件超の個人データ アクセス可能な状態(NHK) FBのデータ、アプリ開発会社が5億件超を「放置」 (日本経済新聞) FB情報 5億件超「丸見え」…外部会社と共有(読売新聞) フェイスブック

                                  サードパーティ取得のFacebookデータが公開状態だった件についてまとめてみた - piyolog
                                • 分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり

                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe(以下、IU)と呼ばれており、LINEで扱うすべてのデ

                                    分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
                                  • 3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools

                                    公開日 2024/07/29更新日 2024/07/313フェーズに分けて振り返る atama plus データアーキテクチャ変遷 こんにちは、atama plus株式会社でEngineering Managerや、SRE、データ基盤などplatform系チームのオーナーをしております、前田( @kzk_maeda)と申します。 atama plusでは「教育に、人に、社会に、次の可能性を。」をミッションに、全国の生徒さんに新しい学習体験を届けるため奮闘しています。 その手段として、AIを用いてパーソナライズされた学習体験を提供しております。その実現のためには生徒さんの学習データを如何に活用していくかは非常に重要な要素です。他にも、データに基づいた意思決定、コンテンツ改善のための指標トラッキング、顧客コミュニケーションなど、様々なところでデータを活用する動きがあり、年々その需要と活用幅は広

                                      3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools
                                    • ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog

                                      初めに 会社・事業紹介 ABEJA Insight for Retailについて 技術スタック 全体アーキテクチャ図 ① 映像録画・解析システム ②データ基盤部分 ③ Webダッシュボード その他 (全体共通部分) 一緒に働く仲間を募集中! 最後に 初めに こんにちわ。大田黒(おおたぐろ)です。暑い日が落ち着いてきて、秋(冬?)が来たなぁと感じるこの頃です。皆様いかがおすごしでしょうか。前回の「ABEJAの技術スタックを公開します (2019年11月版)」が公開されてからしばらく経ちました。 引き続きエンジニアの方とお話させていただく中で、 「ABEJAってよく聞くけど...実際どんなことやってるのかよくわからない」 「AIのお硬いSIerって感じなんでしょ?」 「社内は機械学習エンジニアばっかりなんでしょ...??」 といったご質問をいただくことが多いです。 今回の記事では、最新の会社や

                                        ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog
                                      • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                                        先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                                          【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                                        • BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC

                                          20211210-TLP-WHITE_LOG4J.md Security Advisories / Bulletins / vendors Responses linked to Log4Shell (CVE-2021-44228) Errors, typos, something to say ? If you want to add a link, comment or send it to me Feel free to report any mistake directly below in the comment or in DM on Twitter @SwitHak Other great resources Royce Williams list sorted by vendors responses Royce List Very detailed list NCSC-N

                                            BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC
                                          • 新機能 AWSCLIから Amazon Athena のクエリを実行する | DevelopersIO

                                            昨日、以前から要望の多かった AWSCLI から Amazon Athena のクエリ実行する機能がリリースされましたので、早速試してみました。 Amazon Athena adds API/CLI, AWS SDK support, and audit logging with AWS CloudTrail 今回のリリースでは、AWSCLIの他に Java, .NET, Node.js, PHP, Python, Ruby, Go, 及び C++ で利用可能な AWS SDK を使用して、REST API 経由で Amazon Athena からもクエリを実行できるようになりました。詳細については、APIリファレンスおよびCLIガイドを参照してください。 サポートされた機能 ペタバイトクラスのクエリ実行も想定した Amazon Athena なので、クエリ実行は、「クエリの非同期実行〜ク

                                              新機能 AWSCLIから Amazon Athena のクエリを実行する | DevelopersIO
                                            • Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO

                                              クラスメソッドの石川です。 先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。 スライド こちらがスライドになります。 こんな事を話してた はじめに データレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめ まとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ

                                                Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
                                              • 【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO

                                                大阪オフィスのちゃだいんです。 本日はAWS Pop-Up Loft Osakaにて、ハンズオンに参加してきました。 今回はそのハンズオンの内容をご紹介したいと思います。 その前に、 AWS Pop-Up Loft Osakaは期間限定でオープンしており、本日が最終日でした...(涙) 大阪のど真ん中一等地に、無料でコーヒーももらえるコワーキングスペース。中之島の高層ビル26階からの眺めを楽しみながら、優雅にパソコンパチパチできる稀有な場所でした。 どんな場所だったのかは、このブログをご覧ください。 【AWS Loftが大阪に期間限定オープン!】オープンしたてのAWS Pop-Up Loft Osakaで早速リモートワークしてみた #awsloft ハンズオン概要 DataLake ハンズオン OCT 31,2019 About the event(上記ページより抜粋) 幅広いデータソース

                                                  【初データレイク体験】AWS Loft Osakaで DataLake ハンズオンを受けてきた(公開資料URLあり) | DevelopersIO
                                                • 【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた(ハンズオン1) | DevelopersIO

                                                  こんにちは。DA事業本部の春田です。 管理のしやすさや拡張性の高さで注目を集めている、次世代のデータ分析基盤Data Lakeについて、ハンズオンにトライしてみました。 Datalake Handson 本記事では、Lab1~Lab3のニアリアルタイムデータ分析環境(スピードレイヤ)を構築していきます。 Lab1: はじめの準備 Lab1: はじめの準備 はじめにハンズオン共通で使用するVPC、EC2、IAM Roleを設定していきます。まずEC2で使用するキーペアを作成します。 上で作成したキーペア datalake-handson-haruta を用いて、CloudFormationからEC2インスタンスを作成します。 EC2の構築が完了したら、 datalake-handson-haruta の公開鍵でSSHログインし、 /root/es-demo/testapp.log にログが吐

                                                    【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた(ハンズオン1) | DevelopersIO
                                                  • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                                    はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                                      データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                                    • ヤフー発の OSS 、Multiple-Dimension-Spread(MDS)の紹介

                                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。 ヤフー株式会社 データ&サイエンスソリューション統括本部データプラットフォーム本部データデリバリー部の井島&大戸です。 今回は、ヤフー株式会社(以下ヤフー)が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介します。 Multiple-Dimension-Spreadとは Multiple-Dimension-Spread(以下MDS)はヤフーが開発したカラムナストレージフォーマットです。 大規模なデータを蓄えておく仕組みを湖として捉えたものをデータレイクといいます。 MDS はデータレイクにデータを保存、利

                                                        ヤフー発の OSS 、Multiple-Dimension-Spread(MDS)の紹介
                                                      • Raspberrypi zero WとABEJA Platformを活用した侵入者通知アプリを作る - Y's note

                                                        やりたいこと 家庭で簡単に防犯カメラを作りたいと思い、下記のアイテムを利用して作ってみました。 僕の家はマンションの1階にあり、5〜6畳分の庭が付いています。庭内には植物・野菜を栽培したり洗濯物を干しているので、1階に住む住人としては不審者が入ってこないかどうかが気になったりします。そこで、Raspberrypi zero W, camera module, ABEJA Platform, LINE Messaging APIを用いて、不審者が庭内で検出された場合にLINEに通知が来る仕組みを作りたいと思います。LINEに通知するのは極力リアルタイムで検知したいというのと、写真で証拠を記録し通報に利用できるというメリットがあります。家庭のセキュリティサービスを展開しているものもありますが、初期工事費用や月額でそれなりにするので、もっと簡易な防災通知ができたらと思って試してみました。今回のR

                                                          Raspberrypi zero WとABEJA Platformを活用した侵入者通知アプリを作る - Y's note
                                                        • Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ

                                                          こんにちは。 今年4月にエニグモに入社したデータエンジニアの谷元です。 この記事は Enigmo Advent Calendar 2020 の20日目の記事です。 目次 はじめに そもそも同期処理とは? Airflowによる同期処理 検証時のコード サンプルをAirflow画面で見ると? 同期遅延なし時のAirflowログ 同期遅延あり時のAirflowログ 同期タイムアウト時のAirflowログ 所感 最後に はじめに コロナ禍の中、皆さんどのようにお過ごしでしょうか。 私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、

                                                            Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
                                                          • bashスクリプトのエラー処理のベストプラクティス – marketechlabo

                                                            データ処理バッチでシェルスクリプトは便利 データ処理などでバッチプログラムを書くことは多い。Pythonなどのプログラム言語を使って全部記述する方法もあるし、最近ではGUIのワークフローを描けるツールも出てきている。 ただシェルスクリプトは依然として強い。シェルスクリプトは概して動作が高速で、イレギュラー処理に対しても柔軟に対応できる。gcloudやawscliなどのコマンドを使って記述できるので、できないことはない。機能がなければコマンドをインストールすることも可能。困ったときにも確実にゴールにたどり着くメリットがある。プログラム言語だとライブラリの出来に依存するし、ワークフロー系のツールは機能が実装されていないと詰む。イレギュラー処理を扱えない場合がある。 便利なツールが出てきている時代ではあるが、シェルスクリプトを覚えておくのはおすすめである。バッチ処理ではエラーハンドリングが必須だ

                                                            • 【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services

                                                              AWS Startup ブログ 【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft こんにちは、スタートアップ ソリューションアーキテクトの松田 (@mats16k) です。 だんだん暑くなってきましたが、いかがお過ごしでしょうか。私は半ズボンでの出勤を解禁しました(スタートアップなら普通ですよね?)。今回は週刊 Ask An Expert 記念すべき第10回目をお届けしたいと思います。「参考になった!」「いい内容だ!」と思っていただけたら、ぜひハッシュタグ #AWSLoft を付けてシェアしてください。もちろん、改善点・ご要望もお待ちしております。 Ask An Expert ? さて、皆さん AWS Loft Tokyo はご存知でしょうか? 目黒セントラ

                                                                【週刊 Ask An Expert #10】サーバーレス化を検討している?そこは AWS Amplify でしょ。 AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services
                                                              • 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩.pdf

                                                                1 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩 2020年5月28日 アマゾン ウェブ サービス ジャパン 株式会社 シニアソリューションアーキテクト 下佐粉 昭(しもさこ あきら) @simosako 2020年6月発売予定! 2 AWSオンラインセミナーへようこそ ご質問を受け付けております! • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問から ピックアップしてご回答をさせていただき ます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック 終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介 下佐粉 昭(しもさこ あきら) 所属: アマゾン ウェブ サービス ジャパン シニアソリューシ

                                                                • タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog

                                                                  はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。 本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。 対象にしている読者は以下の方々です。 データ品質について考えている方 データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方 この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -

                                                                    タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
                                                                  • [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services

                                                                    Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日(2018/4/24)開催しました AWS Black Belt Online Seminar「AWS で構築するデータレイク基盤のアーキテクチャ」の資料を公開致しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180424 AWS Black Belt Online Seminar AWSで構築するデータレイク基盤のアーキテクチャ PDF 録画(オンデマンドセミナー) Q1. データスチュワードは、DataLake の TIer 1,2,3 および DWH 全てを定義・管理するイメージでしょうか? A1. 企業ごとに運用事情は

                                                                      [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services
                                                                    • bliki: Data Lake

                                                                      Data Lake is a term that's appeared in this decade to describe an important component of the data analytics pipeline in the world of Big Data. The idea is to have a single store for all of the raw data that anyone in an organization might need to analyze. Commonly people use Hadoop to work on the data in the lake, but the concept is broader than just Hadoop. When I hear about a single point to pul

                                                                        bliki: Data Lake
                                                                      • DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog

                                                                        本記事では6月に開催されたDATA+AI Summit 2024でGeneral Availabilityが発表されたDatabricksのDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal Formatの機能を有効にしたテーブルを作成し、Amazon AthenaからApache Iceberg形式でクエリを発行するサンプルを用いて、機能の使い方と本機能のメリットについて解説します。 目次 目次 はじめに データレイクとOpen Table For

                                                                          DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog
                                                                        • [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services

                                                                          Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から

                                                                            [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services
                                                                          • Data Meshとは何か?

                                                                            Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                                                              Data Meshとは何か?
                                                                            • ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note

                                                                              ラーメン二郎分類器 引用 : ラーメン二郎 三田本店 (らーめんじろう) - 三田/ラーメン | 食べログ @yutakikuchi_です。 皆さん、ラーメン二郎は好きですか? 好きですよね? 僕は大学の目の前にラーメン二郎があったので足繁く通っていました。しかし、ラーメン二郎初心者にとっては、麺の画像を見て、それが「ラーメン二郎」なのか「長崎ちゃんぽん」なのかが見分けが付きづらいと思います。よってDeepLearningを用いて、それらの分類を自動化する仕組みをABEJA Platformを使って実装する方法について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。 既にABEJA Platform、ABEJA Platform Ann

                                                                                ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ - Y's note
                                                                              • Query any data source with Amazon Athena’s new federated query | Amazon Web Services

                                                                                AWS Big Data Blog Query any data source with Amazon Athena’s new federated query April 2024: This post was reviewed for accuracy. Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for w

                                                                                  Query any data source with Amazon Athena’s new federated query | Amazon Web Services
                                                                                • Data lakeとは?データ分析基盤をゼロから作るプロセス - Qiita

                                                                                  はじめまして、Newspicksでエンジニアしています、Hoàngです。 新卒で入社し、現在はNewspicksを支えるデータ分析基盤を作っています。そのノウハウをシェアできればと思い、この記事を書きました。 なぜData lakeが必要なのか? (AWSより引用) サービスに機械学習、AIを導入したい思ったことがありますでしょうか。あるいは、ユーザーがどのようにサービスを利用しているかを分析したいと思ったことがありますか。 ユーザ分析や機械学習をするために本番のデータベースにアクセスしたり、クエリを投げたりしてはいけません。分析、機械学習の用途で本番サービスに負荷を与えると、最悪の場合本番サービスを停止させてしまうこともあります。本番データと完全に同期されたデータ基盤があれば、このような問題にも対処できます。 また、データ分析はSQLを使うのですが、SQLではDynamoDB, Mong

                                                                                    Data lakeとは?データ分析基盤をゼロから作るプロセス - Qiita