並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 87件

新着順 人気順

DataLakeの検索結果1 - 40 件 / 87件

  • Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬

    この記事はFixer Advent Calendar 9日目の記事です。 はじめに 最近CKADの受験して一旗上げようと画策しているなむゆです。 Kubernetesについて学ぶ中で、腕試しに使えそうな面白そうなサイトを見つけたので紹介してみようという回です。 Game of PODsとは Game of PODsとは、無料で遊べるKubernetesの問題集です。 Kubernetesクラスターにアプリケーションを展開したり、クラスターで起きている問題を解決することを通してそれらの方法を学ぶことができます。 この問題集はKodeKloudというサービスに提供されている教材のひとつで、KataKodaという教材用環境サービス内でホストされている仮想環境にアクセスしてハンズオン形式で課題を解くことができることが特徴です。 問題の内容としては、あるアーキテクチャが与えられて、「このアプリケーシ

      Kubernetesをゲーム感覚で腕試しできるサイト「Game of PODs」で遊ばないと年を越せない・2021冬
    • データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball

      ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle

        データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
      • PayPayがAWSを使い続ける理由 日本No.1のQR決済サービスを支えるインフラ構成

        ZOZO×一休×PayPay AWS Nightは、2020年7月22日に開催されたZOZOテクノロジーズ・一休・PayPayの3社による合同イベントです。各社それぞれAWSの活用事例を紹介します。PayPay株式会社プラットフォームチームの西中氏がPayPayのインフラの概要について話しました(記事内の情報はイベント開催時点のもの)。 日本のNo.1 QRコード決済サービス 西中智樹氏(以下、西中):「PayPayでのAWS活用事例について」と題して、PayPay Platformチーム・西中が発表いたします。 簡単に自己紹介します。西中智樹と申します。2018年12月よりPayPayで仕事をしていまして、現在、AWSなどのPayPayのインフラを所管するPlatformのチームに所属しています。好きなAWSサービスはEKSです。 本日のセッションのアジェンダになります。この順番でお話を

          PayPayがAWSを使い続ける理由 日本No.1のQR決済サービスを支えるインフラ構成
        • LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入

          こんにちは、Data Platform室Data Engineering 1チームの徐です。 Data Platform室では、大規模なHadoopクラスタを運用し、データ収集、分析、活用するためのプラットフォームを提供しています。Data Engineering 1チームのミッションの一つは、様々なストレージからのdata ingestionシステムを構築、運用することです。 本記事では、バッチ処理でデータ収集を行うシステムの概要を説明した後に、LINEのセルフサービスツールであるFreyをご紹介します。 課題: このシステムでもデータ収集のバッチ処理を実行・管理するという目的は果たせましたし、ユーザーとタスクの規模が小〜中程度であれば問題はありませんでした。しかし、LINEの全てのプロダクトまでスコープを広げるにつれ、次のような問題に躓くことが増えていきました。 コード記述(ステップ1

            LINEの新しいセルフサービス型バッチデータ収集システム「Frey」の導入
          • 今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ

            Red Hatの須江です。 本記事は赤帽エンジニア Advent Calendar 2019の10日目です。 子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。 セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけ デジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。 ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。 そこで、2019/6/20に開催された「DX&Open Hybrid Cl

              今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
            • PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball

              日本で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号本塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグです)を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのか どのような処理, どのようなユースケースで動かしているのか これらをどのようなアーキテクチャで実現したのか 以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて(2022/10/15 16:00-16:30)」の予告編でもあります. なので, 後日のトークをお楽しみに

                PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
              • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                  LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                • Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball

                  個人開発(趣味プロジェクト)でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクト ヘルスケア周りの自分専用プロダクト開発 この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきた クラウドにおけるサービスの選び方・スケール(=拡張)するときに気をつけるべき勘所 みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう!という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは(この記事を読んだ皆様の)状況

                    Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
                  • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                    こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                      DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                    • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

                      「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス本部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

                        自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
                      • 3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools

                        公開日 2024/07/29更新日 2024/07/313フェーズに分けて振り返る atama plus データアーキテクチャ変遷 こんにちは、atama plus株式会社でEngineering Managerや、SRE、データ基盤などplatform系チームのオーナーをしております、前田( @kzk_maeda)と申します。 atama plusでは「教育に、人に、社会に、次の可能性を。」をミッションに、全国の生徒さんに新しい学習体験を届けるため奮闘しています。 その手段として、AIを用いてパーソナライズされた学習体験を提供しております。その実現のためには生徒さんの学習データを如何に活用していくかは非常に重要な要素です。他にも、データに基づいた意思決定、コンテンツ改善のための指標トラッキング、顧客コミュニケーションなど、様々なところでデータを活用する動きがあり、年々その需要と活用幅は広

                          3フェーズに分けて振り返る atama plus データアーキテクチャ変遷 - Findy Tools
                        • Amazon DataZone でデータカタログを実現する - Taste of Tech Topics

                          はじめに こんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。 さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。 データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。 はじめに 概要 データレイクとは データカタログとは なぜAmazon DataZoneが必要か(AWS Guleとの違い) Amazon DataZoneとは サービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる 構成概要 データ準備 ドメインとデータポータルの作成 プロジェクトの作成 環境の作成 データカタログの作成 データアセッ

                            Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
                          • 分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり

                            LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog 2021年11月10日・11日の2日間にわたり、LINEのオンライン技術カンファレンス「LINE DEVELOPER DAY 2021」が開催されました。特別連載企画「 DEVDAY21 +Interview 」では、発表内容をさらに深堀りし、発表では触れられなかった内容や裏話について登壇者たちにインタビューします。今回の対象セッションは「分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話」です。 LINEでは現在、200ペタバイトを超えるデータ分析基盤を運用しています。このデータプラットフォームはInformation Universe(以下、IU)と呼ばれており、LINEで扱うすべてのデ

                              分断された多数のデータをひとつのプラットフォームに統合。データ分析基盤構築の道のり
                            • ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog

                              初めに 会社・事業紹介 ABEJA Insight for Retailについて 技術スタック 全体アーキテクチャ図 ① 映像録画・解析システム ②データ基盤部分 ③ Webダッシュボード その他 (全体共通部分) 一緒に働く仲間を募集中! 最後に 初めに こんにちわ。大田黒(おおたぐろ)です。暑い日が落ち着いてきて、秋(冬?)が来たなぁと感じるこの頃です。皆様いかがおすごしでしょうか。前回の「ABEJAの技術スタックを公開します (2019年11月版)」が公開されてからしばらく経ちました。 引き続きエンジニアの方とお話させていただく中で、 「ABEJAってよく聞くけど...実際どんなことやってるのかよくわからない」 「AIのお硬いSIerって感じなんでしょ?」 「社内は機械学習エンジニアばっかりなんでしょ...??」 といったご質問をいただくことが多いです。 今回の記事では、最新の会社や

                                ABEJA Insight for Retailの技術スタックを公開します (2021年10月版) - ABEJA Tech Blog
                              • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                                先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                                  【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                                • BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC

                                  20211210-TLP-WHITE_LOG4J.md Security Advisories / Bulletins / vendors Responses linked to Log4Shell (CVE-2021-44228) Errors, typos, something to say ? If you want to add a link, comment or send it to me Feel free to report any mistake directly below in the comment or in DM on Twitter @SwitHak Other great resources Royce Williams list sorted by vendors responses Royce List Very detailed list NCSC-N

                                    BlueTeam CheatSheet * Log4Shell* | Last updated: 2021-12-20 2238 UTC
                                  • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                    はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                      データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                    • Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ

                                      こんにちは。 今年4月にエニグモに入社したデータエンジニアの谷元です。 この記事は Enigmo Advent Calendar 2020 の20日目の記事です。 目次 はじめに そもそも同期処理とは? Airflowによる同期処理 検証時のコード サンプルをAirflow画面で見ると? 同期遅延なし時のAirflowログ 同期遅延あり時のAirflowログ 同期タイムアウト時のAirflowログ 所感 最後に はじめに コロナ禍の中、皆さんどのようにお過ごしでしょうか。 私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、

                                        Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
                                      • bashスクリプトのエラー処理のベストプラクティス – marketechlabo

                                        データ処理バッチでシェルスクリプトは便利 データ処理などでバッチプログラムを書くことは多い。Pythonなどのプログラム言語を使って全部記述する方法もあるし、最近ではGUIのワークフローを描けるツールも出てきている。 ただシェルスクリプトは依然として強い。シェルスクリプトは概して動作が高速で、イレギュラー処理に対しても柔軟に対応できる。gcloudやawscliなどのコマンドを使って記述できるので、できないことはない。機能がなければコマンドをインストールすることも可能。困ったときにも確実にゴールにたどり着くメリットがある。プログラム言語だとライブラリの出来に依存するし、ワークフロー系のツールは機能が実装されていないと詰む。イレギュラー処理を扱えない場合がある。 便利なツールが出てきている時代ではあるが、シェルスクリプトを覚えておくのはおすすめである。バッチ処理ではエラーハンドリングが必須だ

                                        • 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩.pdf

                                          1 「AWSではじめるデータレイク」出版記念 データレイクはじめの一歩 2020年5月28日 アマゾン ウェブ サービス ジャパン 株式会社 シニアソリューションアーキテクト 下佐粉 昭(しもさこ あきら) @simosako 2020年6月発売予定! 2 AWSオンラインセミナーへようこそ ご質問を受け付けております! • 書き込んだ質問は主催者にしか見えません • 最後のQ&A時間で、いただいたご質問から ピックアップしてご回答をさせていただき ます ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック 終了後にアンケートの記入をお願いいたします https://bit.ly/2TFPbps アンケートにお答えいただいた方には本日の資料を後日ご提供させていただきます。 3 自己紹介 下佐粉 昭(しもさこ あきら) 所属: アマゾン ウェブ サービス ジャパン シニアソリューシ

                                          • タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog

                                            はじめに 以前のデータ基盤 3つの問題解決と振り返り 問題1: データパイプラインの更新遅延 解決策 実装 振り返り 問題2: 分析チームへのクエリ修正依頼の増加 解決策 実装 振り返り 問題3: ETLパイプラインにおける加工処理の負債 解決策 実装 振り返り これからの品質に関する改善 はじめに 初めまして、タイミーのDRE (Data Reliability Engineering) チームの土川(@tvtg_24)です。 本記事ではデータ品質の保守に着目してここ1年くらいで試行錯誤したことを振り返っていきたいと思います。 対象にしている読者は以下の方々です。 データ品質について考えている方 データ分析の品質担保に困っている方 ETLからELTへの基盤移行を考えている方 この記事は Data Engineering Study #11「6社のデータエンジニアが振り返る2021」 -

                                              タイミーのデータ基盤品質。これまでとこれから。 - Timee Product Team Blog
                                            • Data Meshとは何か?

                                              Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                                Data Meshとは何か?
                                              • DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog

                                                本記事では6月に開催されたDATA+AI Summit 2024でGeneral Availabilityが発表されたDatabricksのDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal Formatの機能を有効にしたテーブルを作成し、Amazon AthenaからApache Iceberg形式でクエリを発行するサンプルを用いて、機能の使い方と本機能のメリットについて解説します。 目次 目次 はじめに データレイクとOpen Table For

                                                  DeltaLake Universal Formatを使ったクロスプラットフォーム分析 - NTT Communications Engineers' Blog
                                                • Query any data source with Amazon Athena’s new federated query | Amazon Web Services

                                                  AWS Big Data Blog Query any data source with Amazon Athena’s new federated query April 2024: This post was reviewed for accuracy. Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for w

                                                    Query any data source with Amazon Athena’s new federated query | Amazon Web Services
                                                  • Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ

                                                    エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー

                                                      Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
                                                    • Data lakeとは?データ分析基盤をゼロから作るプロセス - Qiita

                                                      はじめまして、Newspicksでエンジニアしています、Hoàngです。 新卒で入社し、現在はNewspicksを支えるデータ分析基盤を作っています。そのノウハウをシェアできればと思い、この記事を書きました。 なぜData lakeが必要なのか? (AWSより引用) サービスに機械学習、AIを導入したい思ったことがありますでしょうか。あるいは、ユーザーがどのようにサービスを利用しているかを分析したいと思ったことがありますか。 ユーザ分析や機械学習をするために本番のデータベースにアクセスしたり、クエリを投げたりしてはいけません。分析、機械学習の用途で本番サービスに負荷を与えると、最悪の場合本番サービスを停止させてしまうこともあります。本番データと完全に同期されたデータ基盤があれば、このような問題にも対処できます。 また、データ分析はSQLを使うのですが、SQLではDynamoDB, Mong

                                                        Data lakeとは?データ分析基盤をゼロから作るプロセス - Qiita
                                                      • Moving from DynamoDB to tiered storage with MySQL+S3

                                                        Originally we implemented a feature to persist an event-stream into DynamoDB to allow customers to retrieve them. This proved effective, serving as a strong use case for a key/value storage, yet the drawback was its high cost. Moving to provisioned billing-mode reduced cost by ~50%, but that was not going to be sustainable as we scaled to more customers. We also kept multiplying the cost each time

                                                          Moving from DynamoDB to tiered storage with MySQL+S3
                                                        • AWS Lakeformationを使ってData Lakeを構成してみた | DevelopersIO

                                                          データアナリティクス事業本部のnkhrです。今回のブログでは、Data Lakeのアクセス管理やデータ管理を行うLake Formation機能を検証します。 Lake Formationを使うメリット Data Lakeアーキテクチャでデータ格納・加工・クエリを実施するためには、複数のAWSサービスを組み合わせる必要があります。 たとえば、Lake Formationを利用せずに、以下のようなAWSサービスを組み合わせる場合、IAM PolicyとBucket Policyを用いて、どのデータに対して誰がアクセスしてよいかを制御(データガバナンス)する必要があり、ポリシーの管理は複雑になります。 S3(データ格納) Gule Data Catalog (S3データのSchema定義) Glue Data Brew or Glue ETL(データ加工/ジョブ) Step Function

                                                            AWS Lakeformationを使ってData Lakeを構成してみた | DevelopersIO
                                                          • データレイクハンズオンでデータレイクを実感してみる | DevelopersIO

                                                            前回のAWS Innovateで、データレイクのハンズオンが掲載されていました。データレイクのイメージを掴むのに有益になればと思いましたのでご紹介します。 AWS Innovateのサイトは既にクローズされていますが、ハンズオン資料のサイトはありますので参考にしてください。 amazon-s3-datalake-handson 本ハンズオンのゴール 以下、ハンズオン資料から引用 幅広いデータソースからの構造化データまたは非構造化データの集中リポジトリとして使用できる Data Lake は、データの保存と分析の方法として多くの企業に取り入れられています。 AWS のビッグデータ関連サービスを使用して実際に分析パイプラインを構築することを通して、 Data Lake とビッグデータ分析基盤構築の実感を持って頂くことをゴールとしています。 ということで、データレイクを実感するにはとても良いハン

                                                              データレイクハンズオンでデータレイクを実感してみる | DevelopersIO
                                                            • New for Amazon Redshift – Data Lake Export and Federated Query | Amazon Web Services

                                                              AWS News Blog New for Amazon Redshift – Data Lake Export and Federated Query A data warehouse is a database optimized to analyze relational data coming from transactional systems and line of business applications. Amazon Redshift is a fast, fully managed data warehouse that makes it simple and cost-effective to analyze data using standard SQL and existing Business Intelligence (BI) tools. To get i

                                                                New for Amazon Redshift – Data Lake Export and Federated Query | Amazon Web Services
                                                              • Gaudiy、データ分析チームを立ち上げました。 - Gaudiy Tech Blog

                                                                こんにちは!エンタメ領域のDXを推進するブロックチェーンスタートアップ、Gaudiyでアナリティクスエンジニア兼データアナリストをしている星野(@mochigenmai)です。 年初に公開したブログでお伝えさせていただきましたが、Gaudiyは今年から「プロダクト主導型の組織づくり」を進めています。 techblog.gaudiy.com プロダクト主導型の組織には、データドリブンな意思決定が欠かせません。そこでGaudiyでは、データを元にしたプロダクト改善を行い、ユーザへの適切な価値提供をしていくために、1月にデータ分析チームを立ち上げました。 今回のブログでは、データ分析チームを立ち上げた背景や、立ち上げ時の課題や取り組み、データアナリストの役割などについてお伝えします! スタートアップで同じようにデータ分析チームの立ち上げを担っている方や、データ分析チームの役割に興味のある方にご参

                                                                  Gaudiy、データ分析チームを立ち上げました。 - Gaudiy Tech Blog
                                                                • AzureとAWSの自動機械学習 - ecbeing labs(イーシービーイング・ラボ)

                                                                  はじめに 初めまして。おとです。 ecbeingに入社して1年ちょっと、日々データサイエンスや機械学習について学びつつ業務に勤しんでおります。 機械学習について学び始めてから半年ほど経ちます。その中で、 ・Microsoftが提供するAzure Machine Learning ・AWSが提供するAmazon SageMaker 2つの機械学習サービスのチュートリアルを何度か行いました。 その中でも自動機械学習機能が機械学習初心者である私にとってとても便利だと感じたのでご紹介したいと思います。 はじめに 自動機械学習 Azure Machine Learning の自動機械学習 データの選択 ジョブの構成 タスクと設定の選択 検証とテスト 実験 モデルデプロイ エンドポイント Amazon SageMaker の自動機械学習 実験 モデル エンドポイント おわりに 自動機械学習 通常、機械

                                                                    AzureとAWSの自動機械学習 - ecbeing labs(イーシービーイング・ラボ)
                                                                  • 急成長する《現場》の、データエンジニアというお仕事。 - Qiita

                                                                    なんの話? 三行で。 サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。 エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。 データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1] "data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2] 末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。

                                                                      急成長する《現場》の、データエンジニアというお仕事。 - Qiita
                                                                    • AWSにおけるHudi/Iceberg/DeltaLakeの使いどころと違いについて

                                                                      • BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ

                                                                        この記事は Eureka Advent Calendar 2019 11日目の記事です。 10日目は スーパーCompSREエンジニア恩田による「AWSのマルチアカウント管理におけるIAMマネジメントで試行錯誤した話」でした。 こんにちは。BIチームのデータアナリストの栗村(@t-kurimura)です。主にPairsの機能に関する分析を行っていますが、最近は分析を行うまでのデータを整えるデータアーキテクト的お仕事の比率も増えてきています。 さて、この記事では弊社のDataPlatform運用において、試行錯誤してきた中での運用の学びをケース・スタディ的にご紹介します。 エウレカのDataPlatformの現状前提として、弊社では3つの層にわけて、アプリケーションログやマーケティングに関連するデータをより分析しやすいデータへと加工しています。 Dataをほぼそのまま保存しているDataLa

                                                                          BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ
                                                                        • Awesome AWS Workshops - Build On!

                                                                          Awesome AWS Workshops¶ (Unofficial) Curated list of awesome workshops found around in the internet. As we all have been there, finding that workshop that you have just attended shouldn't be hard. The idea is to provide an easy central repository, in a collaborative way. Contributing¶ Your contributions are always welcome! Please take a look at the contribution guidelines first. We will keep pull r

                                                                            Awesome AWS Workshops - Build On!
                                                                          • 広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog

                                                                            協業リテールメディアdivでデータエンジニアをしている千葉です。 本日は、広告プロダクトにおけるデータ基盤を効率よく活用することを目指したこの1年間を振り返って、データ基盤から広告プロダクトの価値を高めるための試行錯誤をご紹介します。 目次 データ基盤の構成紹介 データ基盤の活用および運用方法 手動作業での事故が起きないCI/CD構築 実験ができる環境の提供 コストの確認および監視 定期的な棚卸し データ基盤の民主化をした結果と課題 まとめ データ基盤の構成紹介 以前弊社のイベントに登壇した際の設計思想をもとに構築をしています。 このデータ基盤の利用目的としては、各広告媒体の配信結果を分析するための基盤となっています。 基盤の構成としてはStorageにRaw Dataを格納し、Datalake、DWH,Datamartの3層構造で基盤を構築しています。 主に使用しているツール/サービスと

                                                                              広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog
                                                                            • 医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE

                                                                              JAWS DAYS 2021-03-20の登壇資料。 株式会社JMDCのデータレイクの取扱いについて紹介します。 https://jawsdays2021.jaws-ug.jp/timetable/track-d-1100/

                                                                                医療データレイクで分析基盤の構築 / JAWS DAYS 2021 JMDC DATALAKE
                                                                              • 【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話 - St_Hakky’s blog

                                                                                こんにちは。 久しぶりのブログ投稿になってしまったのですが、今日は「クエリの単体テストを書こうと思ったけど、壁が厚くてどうしようかなと思った話」を書きたいと思います。 はじめに言っておきますが、この記事は特に何か解決策があるわけでもなんでもなく、「ただ、クエリの単体テストを書こうとするとこんな問題にぶち当たって、それに対してこうしたらいいとは思ったけど、誰か最高のソリューションない?笑」って聞きたかったから書いただけの記事です笑*1 この記事のモチベ 最近、BigQueryを使ったデータ分析基盤とやらを開発しているのですが、「テスト書いてないとかお前それ @t_wada さんの前でも同じこと言えんの?」って言う状態になり、「これ真面目にやろうとするとどうなるんだ」って言うことで真面目に対峙してみました*2。 ここで言う「真面目に」と言うのは、「入り得る全パターンのデータに対する集計があって

                                                                                  【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話 - St_Hakky’s blog
                                                                                • 【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO

                                                                                  こんにちは!体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。 先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました! 思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。 また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。 なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました! これから 12 冠を目指したい!と思っている方や、短期間取得を目指す際の参考になれば幸いです! なぜ12冠を目指そうと思ったのか 何よりも AWS を利用した業務や、技術サポートに携わっているからです! その他にも、もう少し理由を並べてみたいと思います。 AWS の知識

                                                                                    【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO