並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 94件

新着順 人気順

DataLakeの検索結果41 - 80 件 / 94件

  • AWS Lake Formationのチュートリアルをやってみた! | DevelopersIO

    前回のブログでAWS Lake Formationを少し触ってみましたが、イマイチ概念がつかめなかったのでこちらのチュートリアルもやってみようと思います。 チュートリアルは2つ用意されているのですが、今回は Tutorial: Creating a Data Lake from an AWS CloudTrail Source をやっていきます。 ※個人的にわかりやすい手順にまとめているので、実際のステップと異なる部分がありますが、ご了承ください。 Lakeformationとは? 個人的に押さえておきたいポイントは次の3つです。 IAMを拡張した独自のアクセスコントロールモデルによるきめ細かなアクセス制御が可能 AWS Glueの拡張機能(データカタログ、ジョブ、クローラー、ワークフローなどの実態はGlueのそれ) AWS Lake Formation自体は無料だが、配下のサービス利用費

      AWS Lake Formationのチュートリアルをやってみた! | DevelopersIO
    • AWSにおけるHudi/Iceberg/DeltaLakeの使いどころと違いについて

      • 【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO

        こんにちは!体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。 先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました! 思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。 また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。 なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました! これから 12 冠を目指したい!と思っている方や、短期間取得を目指す際の参考になれば幸いです! なぜ12冠を目指そうと思ったのか 何よりも AWS を利用した業務や、技術サポートに携わっているからです! その他にも、もう少し理由を並べてみたいと思います。 AWS の知識

          【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO
        • データレイク解説シリーズ 第 1 回 : データレイクってなに ? - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

          こんにちは。今回から 4 回の予定でデータレイクについての連載をスタートします。現在データレイクの書籍を 4 名で執筆中なのですが、そこからエッセンスとなるポイントを抜き出し、builders.flash を読んでいただいている皆様にコンパクトにお届けします。第一回は「データレイクってなに?」です。 データレイクを一言で表すならば、多様なデータを一元的に、大量に保存して置ける場所です。データベースに入っているような構造化されたデータも、ソーシャルメディアのメッセージも、画像や音声ファイルも一箇所に集めたデータ置き場という意味です。 これを読んでいる皆様は「データベースでは駄目なの ?」と思われるかもしれませんね。巨大なデータを扱うという意味ではデータウェアハウスもありますが、これとはどう違うのでしょうか? 今回はデータレイク理解の最初の一歩として、データレイクは、データベースやデータウェア

            データレイク解説シリーズ 第 1 回 : データレイクってなに ? - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
          • 【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO

            みなさんこんにちは、杉金です。 今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。 セッション概要 生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに

              【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
            • AWS Certified Data Analytics – Specialty(DAS) を取得できたので振り返ってみた | DevelopersIO

              先日AWS Certified Data Analytics – Specialty(DAS)を取得できたので、振り返りとして私自身の試験対策などについてまとめておきます。 前提 私の経験や前提知識について簡単に記載します。 AWSの実務経験 本格的な実務経験はクラスメソッドにジョインしてからなので、1年未満です。 実務では、S3、Redshiftなどをメインに扱っています。 取得済みAWS認定試験 SAA(ソリューションアーキテクト – アソシエイト) SAP(ソリューションアーキテクト – プロフェッショナル) スケジュール 下記のとおりです。対策期間としては、約1.5ヶ月です。 2020/12/14〜 試験対策を開始(データレイクハンズオン・サンプル問題などを実施) 2020/12/21〜 Udemyで動画視聴・ミニテストを実施 2021/01/08〜 年末年始はあまり対策できずに年

                AWS Certified Data Analytics – Specialty(DAS) を取得できたので振り返ってみた | DevelopersIO
              • Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services

                AWS Database Blog Binary logging optimizations in Amazon Aurora MySQL version 3 The binary log (binlog) in MySQL is used to capture database modifications on a MySQL server in a logical format known as “events”. These database modifications can include DCL statements (such as CREATE USER or GRANT), DDL statements (CREATE TABLE, ALTER TABLE) and DML statements (INSERT, UPDATE, DELETE). When such a

                  Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services
                • 冪等性を担保したGoogle Cloud Composerの設計と実装

                  こんにちは! 2022年2月からLuupにデータエンジニアとしてジョインした河野(@matako1124) です! 元々マイクロモビリティに興味があり、データ基盤もこれからきっちり作っていきたいという0からのフェーズで、お声がけをいただけたことに感謝です。 現在、Luupのデータチームの構成は、Data Strategy部の中にData EngineeringチームとData Scienceチームの2つがある形となっています。 Data Engineeringチームとしては前回の記事執筆者@t-kurimuraと私の二人で取り組んでいます! ということで、まだ入社数ヶ月の私ですが、Luupでのデータ基盤としてGoogle Cloud Composerを導入し、どのように冪等性を担保した設計にしようとしているかご紹介していきたいと思います。 注意 記事執筆から半年ほど経過しており、現在の最新

                    冪等性を担保したGoogle Cloud Composerの設計と実装
                  • amazon-s3-datalake-handson/JP at master · aws-samples/amazon-s3-datalake-handson

                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                      amazon-s3-datalake-handson/JP at master · aws-samples/amazon-s3-datalake-handson
                    • Raspberrypi zero WとEdge TPUを活用した侵入者通知アプリを作る - Y's note

                      やること yut.hatenablog.com @yutakikuchi_です。 以前のBlog PostでRaspberrypi zeroとABEJA Platform(Cloud環境)を活用した侵入者通知アプリを作りました。解決したい課題としては、1階のマンションに住んでいる場合、庭・バルコニーへの不審者の立ち入りが気になります。そこで簡易的なRaspberrypiとLINE Botを利用し、簡易的な写真付きの侵入者通知アプリを作りたいと思いました。 前回はRaspberrypi側にcronで5秒間隔にて画像を撮影し、撮影された画像ををそのままABEJA PlatformのAPIへpostし、SSDにて人物検出を行いました。ただし、これには5秒以内に人がカメラの中に収まることを前提にしたものだったので、侵入者を見落とす可能性がありました。今回は人物検出をEdge側にてSSDで行い、リア

                        Raspberrypi zero WとEdge TPUを活用した侵入者通知アプリを作る - Y's note
                      • 社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ

                        こんにちは、データエンジニアの滑川(@tomoyanamekawa)です。 Classiでは2022年5月に学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリースしました。 この機能のデータ集計は既存の社内用データ基盤からのReverse ETLで実現しました。 そのアーキテクチャの説明と「社内用データ基盤」から「ユーザー影響あるシステムの一部」になったことによる変化について紹介します。 ダッシュボード機能とは 概要 先生のみが利用可能な機能 先生と学年・クラスごとの生徒の利用状況を可視化したダッシュボードを提供する機能 要件・制約 アプリケーションはAWS上で動かす 前日までの利用状況がアプリケーション上で朝8時までに閲覧可能になっていること 学校/学年/クラスごとで集計する 学校を横断した集計はしない 既存の社内用データ基盤とは 社内でのデータ分析を主な用途としているB

                          社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ
                        • How Amazon is solving big-data challenges with data lakes

                          How Amazon is solving big-data challenges with data lakesJanuary 20, 2020 • 2157 words Back when Jeff Bezos filled orders in his garage and drove packages to the post office himself, crunching the numbers on costs, tracking inventory, and forecasting future demand was relatively simple. Fast-forward 25 years, Amazon's retail business has more than 175 fulfillment centers (FC) worldwide with over 2

                            How Amazon is solving big-data challenges with data lakes
                          • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

                            こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

                              AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
                            • データ基盤へのdbtとCI/CDの導入を内定者がやってみた! | | AI tech studio

                              AI事業本部 アプリ運用センターでデータサイエンティストをしている河中と申します。 今回は内定者としてアルバイトに参加している23卒内定者の稲葉さんに、信頼性が高く分析しやすいデータ基盤を構築するためにdbtというツールを導入するタスクに取り組んでもらいました。その中での技術的な話や内定者バイトを通して学んだことをブログにまとめてくれました。 ぜひ一読ください! 23卒エンジニア職内定者の稲葉です。2022年10月から3ヶ月間、AI事業本部小売DXディビジョンのアプリ運用センターでアルバイトをさせていただきました。私は、今までデータサイエンティストやバックエンドエンジニアなど幅広く技術に関わってきましたが、今回はアナリティクスエンジニアとしてデータ基盤の改修を行いました。 本稿では、Snowflake上で構築されているデータ分析基盤を dbtやgithub actionsのCI/CDを用い

                                データ基盤へのdbtとCI/CDの導入を内定者がやってみた! | | AI tech studio
                              • データレイク解説シリーズ 第 4 回: 実践的なデータレイク構築方法とポイント - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

                                こんにちは。AWS Glue & Lake Formation 開発チームの関山です。 この「データレイク解説シリーズ」では 2020 年 6 月出版予定の書籍「AWS ではじめるデータレイク」をベースに、全 4 回でデータレイクのエッセンスをお伝えしています。最終回となる今回は、実践的なデータレイク構築方法とそのポイントについて解説していきます。 今回は例として、図のような構成の一般的なウェブシステムのログデータをもとに、データレイクを構築していきます。 AWS ではデータレイクのストレージとして、Amazon S3 をオススメしています。そこで、ログデータを何らかの方法で収集して S3 にアップロードする必要があります。 ログデータはその性質上、いろんなところに点在しがちです。AWS で構築したシステムでも、EC2 インスタンスのローカルディスクにあったり、S3 にあったり、Cloud

                                  データレイク解説シリーズ 第 4 回: 実践的なデータレイク構築方法とポイント - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
                                • amazon-s3-datalake-handson/JP/README.md at master · aws-samples/amazon-s3-datalake-handson

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    amazon-s3-datalake-handson/JP/README.md at master · aws-samples/amazon-s3-datalake-handson
                                  • Amazon S3 データレイクハンズオン実施時の注意点 (2020年12月) | DevelopersIO

                                    哈喽大家好、コンサルティング部の西野です。 AWS認定試験のひとつである AWS Certified Data Analytics - Specialty を近日中に受験しようと思っています。 が、「データ分析?データレイク?なんもわからん」 という状態なので、まずは公式のハンズオンをやってみました。 aws-samples/amazon-s3-datalake-handson 本稿では、2020年12月時点で本ハンズオンを実施する際に注意するべき点について記します。 ハンズオンの詳細についてはご自身で実施し確認いただくか、先人たちのブログをご参照ください。 (前者を強くおすすめします。) 注意点 ハンズオンをやっていくなかで私がハマった・ハマりかけた部分について紹介します。 Elasticsearch ドメインのバージョンについて (Lab2 Section1 Step1) 2020年現

                                      Amazon S3 データレイクハンズオン実施時の注意点 (2020年12月) | DevelopersIO
                                    • デカ過ぎて固定資産税がかかりそうな GCS 上の古いデータをアーカイブする | メルカリエンジニアリング

                                      この記事は、 Merpay Tech Openness Month 2020 の 2 日目の記事です。 こんにちは。メルペイ DataPlatform チーム、ソフトウェアエンジニアの @syucream です。 主にメルペイのデータ基盤の開発・運用の業務に携わっております。今回はみんな大好きお金とビッグデータとコスト削減のお話をします。 はじめに 様々なデータを収集して横断的に分析可能にする、いわゆるデータ基盤には少なくないコストが掛かります。「ビッグデータ」という言葉が示すような大量のデータを保存して処理する際には、永続化のためのストレージコストがかかります。この課題は我々メルペイ DataPlatform チームも無関係ではありません。以前の記事で紹介させていただきましたが、我々のデータ基盤はさまざまなマイクロサービスからのデータベースや出力されたログを横断管理できるようにしています

                                        デカ過ぎて固定資産税がかかりそうな GCS 上の古いデータをアーカイブする | メルカリエンジニアリング
                                      • 急成長する《現場》の、データエンジニアというお仕事。 - Qiita

                                        なんの話? 三行で。 サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。 エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。 データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1] "data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2] 末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。

                                          急成長する《現場》の、データエンジニアというお仕事。 - Qiita
                                        • Amazon Redshift のパフォーマンスチューニング 十ヶ条まとめ - Qiita

                                          Amazon Redshift は Serverless版もGAされ、さらにATO:Automatic Table Optimization(自動テーブル最適化)など、従来からある Provisioned版含めてパフォーマンスチューニングがどんどん自動化されてきている。 一方で、実運用では高負荷など使い方によって問題が全く起こらないことは考えにくく、困った時にチューニングの余地があることはメリットでもある。 以下の公式ブログの Tips をもとに困った時のチューニング対処ポイントをまとめる ※ 記事は 2020年 のものなので、その後新機能でカバーできる点や、主観的な考えについて適宜補足しています。 [1] マテリアライズドビューを使う 予測可能で何度も繰り返されるクエリに特に効果を発揮する 内部テーブルだけでなく、外部テーブル(Spectrumやフェデレーション)にも使える マテビューの

                                            Amazon Redshift のパフォーマンスチューニング 十ヶ条まとめ - Qiita
                                          • GitHub - blobcity/db: A blazing fast ACID compliant NoSQL DataLake with support for storing 17 formats of data. Full SQL and DML capabilities along with Java stored procedures for advanced data processing.

                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                              GitHub - blobcity/db: A blazing fast ACID compliant NoSQL DataLake with support for storing 17 formats of data. Full SQL and DML capabilities along with Java stored procedures for advanced data processing.
                                            • [新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました | DevelopersIO

                                              [新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました データアナリティクス事業本部コンサルティングチームの石川です。本日は、新たに追加になったUNLOADコマンドのCLEANPATH指定をご紹介します。S3パスにアンロードする前に、既存のファイルを削除する指定で、データレイクのデータ更新がシンプルになります。早速試してみます。 CLEANPATH指定とは UNLOADコマンドのCLEANPATH指定は、S3パスにアンロードする前に、既存のファイルを削除します。 例えば、 UNLOAD ('SELECT * FROM tickit.date') TO 's3://cm-bucket/datalake/tickit/sales/' IAM_ROLE 'arn:aws:iam::12345678912

                                                [新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました | DevelopersIO
                                              • Dataplexを徹底解説! - G-gen Tech Blog

                                                G-gen の神谷です。本記事では、Google Cloud のスケーラブルでサーバレスなデータ管理ツールである Dataplex を徹底解説します。 Dataplex の概要 Dataplex とは メリット データメッシュとは 構成とオブジェクト Dataplex Discovery Dataplex Discovery とは Discovery Action アクセス制御 認証・認可 (IAM) IAM の基本的な理解 アセットと IAM プロジェクトをまたぐ権限管理 VPC Service Controls 属性ストア データの品質チェック Dataplex におけるデータ品質の検証 自動データ品質 自動データ品質とは データ品質タスク データプロファイリング ロギングとモニタリング ロギング モニタリング 料金 その他の機能 ビジネス用語集 データ探索ワークベンチ Dataple

                                                  Dataplexを徹底解説! - G-gen Tech Blog
                                                • [新機能]AWS Glue Studio Spark SQLクエリを使用した変換が可能になりました | DevelopersIO

                                                  データアナリティクス事業本部コンサルティングチームの石川です。AWS Glue Studioは SQLを使用して変換を定義する新しいTransform「Spark SQL」が追加されました。Spark SQLによる結合・集計・フィルタ・変換をAWS Glue Studio のビジュアルトランスフォームとシームレスに融合させることができるようになりました。本日は、新しいTransform「Spark SQL」を用いたETLを試します! Spark SQLクエリを使用した変換とは Spark SQLとは、Apache SparkがサポートするANSI準拠のSQLです。Spark SQL用いて複数のDataFrameを結合・集計・変換したDataFrameを生成できます。 従来、Spark SQLクエリを利用するには、Custom Transformを用いてSparkのスクリプトを書く必要があり

                                                    [新機能]AWS Glue Studio Spark SQLクエリを使用した変換が可能になりました | DevelopersIO
                                                  • Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita

                                                    はじめに 本記事は、Snowflake Data Cloud Summit 2024 の Platform Keynote で発表されたデータアプリケーション機能に関連するアップデート情報を紹介します!セッションとしては、後半の後半のあたりに該当する部分です。本キーノートの配信を視聴することもできるので、気になる方はぜひ御覧ください! 本記事では、下記の項目で解説します。 Snowpark for Python Snowflake Notebooks Snowflake Cortex Snowpark Container Services Hybrid Table Dev/MLOps また先日、同様のカテゴリで各機能の概要を解説した記事も投稿しています。ぜひあわせて御覧ください! 概要 Platform Keynote では、様々なアップデートの発表がありました!特に、アプリ・LLM 系の

                                                      Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita
                                                    • 数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修

                                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でYahoo!ショッピングのレコメンドシステムを開発している山口です。 本記事では、システムの配信ログを大規模データの分散処理が可能な社内のApache Hadoop環境(以下Hadoop)に保存できるように、システム改修した取り組みについて紹介します。 今回改修したレコメンドシステムは、毎秒数千のリクエストを処理する大規模なシステムです。レコメンドシステムから直接Hadoop環境に大量のログを送れるようになったことで、配信情報を素早く、そして簡単にログとして保存できるようになり、日々レコメンドの機械学習モデル改善に役立っています。 Yahoo!ショッピングのレコメンドとは Yahoo!ショッピングで

                                                        数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする 〜 ショッピングのレコメンドシステム改修
                                                      • Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services

                                                        AWS Big Data Blog Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started AWS Glue is a serverless, scalable data integration service that makes it easier to discover, prepare, move, and integrate data from multiple sources. AWS Glue provides an extensible architecture that enables users with different data processing use cas

                                                          Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services
                                                        • 週刊Railsウォッチ: rubygemsに「scoped gems」の提案、RSpecのブロック構文ほか(20220517後編)|TechRacho by BPS株式会社

                                                          週刊Railsウォッチについて 各記事冒頭には🔗でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 お気づきの点がありましたら@hachi8833までメンションをいただければ確認・対応いたします🙏 TechRachoではRubyやRailsなどの最新情報記事を平日に公開しています。TechRacho記事をいち早くお読みになりたい方はTwitterにて@techrachoのフォローをお願いします。また、タグやカテゴリごとにRSSフィードを購読することもできます(例:週刊Railsウォッチタグ) 🔗Ruby 🔗 scoped gemsの提案(Ruby Weeklyより) 元記事: Scoped gems proposal by mullermp ·

                                                            週刊Railsウォッチ: rubygemsに「scoped gems」の提案、RSpecのブロック構文ほか(20220517後編)|TechRacho by BPS株式会社
                                                          • 【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services

                                                            Amazon Web Services ブログ 【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) 本ブログでは2023年9月21日(木)に開催された、「現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編)」のご講演サマリをお届けします。 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 2. 電気設備に対する画像分類モデルの開発と生成AIを活用した異常画像生成の取り組み 3. 「建設デジタルプラットフォーム」によるデジタルデータ活用 4. ファストデジタルツインでちゃぶ台返し~保全の現場から市場を創る、ものづくりを変える~ 5. 現場業務変革を実現するAWSテクノロジー 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 資料ダウンロード 九州旅客鉄道株式会社様 (JR九州様) からは、A

                                                              【開催報告 & 資料公開 】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services
                                                            • 【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO

                                                              はじめに 皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です!! 本エントリではライブセッション「AAB-03:Architecting and Building - ログデータ用のデータレイク&分析環境をクイックに構築するには?」のレポートをお届けします。 概要 スピーカー アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 下佐粉 昭 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 野間 愛一郎 セッション概要 ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお

                                                                【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO
                                                              • 分断されたデータをひとつのデータプラットフォームに統合 LINEのIUに立ちはだかる3つの問題

                                                                2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで奥田輔氏が、LINEのデータをひとつにまとめ上げてデータプラットフォームを作り上げた経緯について共有しました。前半はデータプラットフォームを作り上げるための課題について。 本セッションがどのような人に役立つのか 奥田輔氏:LINE株式会社 Data Engineeringセンター、Data Platform室の奥田輔と申します。 このセッションでは「分断されてしまったデータを2,000台を超えるひとつのデータプラットフォームに統合した話」と題して、LINEにおけるデータプラットフォームがかつて抱えていたデータの分断という課題、それがどのようなものであったか、そしてその課題をどのように解決したかを紹介します。

                                                                  分断されたデータをひとつのデータプラットフォームに統合 LINEのIUに立ちはだかる3つの問題
                                                                • Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う

                                                                  風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋 兼業エンジニアの “宮地克弥”(@int_tt) です。 データ分析基盤を構築するのに必要な不可欠なものとしてデータレイクが挙げられます。AWS を利用して構築する際には Amazon S3 の利用が推奨されています。 【公式参照】AWS 上でのデータレイク - Amazon S3 データレイクでデータサイロを排し、大規模で簡単な分析を可能にする Amazon S3 はデータレイク以外にも静的コンテンツ置き場として幅広い用途で利用されています。 安価かつ簡単に利用することが出来る一方、設定を 1 つ間違えると情報流出に繋がる

                                                                    Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う
                                                                  • Using AWS CodePipeline for deploying container images to AWS Lambda Functions | Amazon Web Services

                                                                    AWS DevOps Blog Using AWS CodePipeline for deploying container images to AWS Lambda Functions AWS Lambda launched support for packaging and deploying functions as container images at re:Invent 2020. In the post working with Lambda layers and extensions in container images, we demonstrated packaging Lambda Functions with layers while using container images. This post will teach you to use AWS CodeP

                                                                      Using AWS CodePipeline for deploying container images to AWS Lambda Functions | Amazon Web Services
                                                                    • IAMポリシーのワークショップをやってみた | DevelopersIO

                                                                      AWS Workshopの「How and when to use different IAM policy types」をやってみました はじめに データアナリティクス事業本部のおざわです。 7月25日は、自宅で井上尚弥選手の試合を観戦して盛り上がっていました。勝利者インタビューで「まだ改善の余地がある」と答えていたのが印象的でした。次の試合も楽しみですね。 今回は、AWSのWorkshop Studioの中から「How and when to use different IAM policy types」というワークショップをやってみました。普段、IAMポリシーを自分で設定する機会があまりなかったので、自分で手を動かしながらいろいろと試したくなったというのが理由です。 いまのところ英語版しかないようです。環境構築はワークショップ用のCloudFormationテンプレートが用意されてい

                                                                        IAMポリシーのワークショップをやってみた | DevelopersIO
                                                                      • Amazon DataZone とはどんなサービスか - Qiita

                                                                        この記事は AWS Advent Calendar 2022 12日目の記事です。 はじめに 先日開催された AWS re:Invent 2022 で新しいデータ管理サービスである Amazon DataZone が発表されました。 Amazon DataZone を使用すると AWS やオンプレミス、サードパーティのソースに保存されているデータのカタログ化、発見、共有、および管理が簡単に行えるようになります。 本記事では 2022/12/11 時点の公開情報と re:Invent 2022 のセッション内容 (ANT344: Democratize data with governance: Bring together people, data, and tools) をもとに Amazon DataZone が提供する機能について掘り下げていきたいと思います。 セッション資料 ブレイ

                                                                          Amazon DataZone とはどんなサービスか - Qiita
                                                                        • Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation | Amazon Web Services

                                                                          AWS Big Data Blog Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation April 2024: This post was reviewed for accuracy. Organizations collect and analyze more data than ever before. They move as fast as they can on their journey to become more data driven by using the insights from their data. Different roles use data for different purposes. For example, data engin

                                                                            Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation | Amazon Web Services
                                                                          • 【AWS Data Lake】長期間のデータをバッチ分析する環境・バッチレイヤを構築してみた(ハンズオン2) | DevelopersIO

                                                                            こんにちは。DA事業本部の春田です。 管理のしやすさや拡張性の高さで注目を集めている、次世代のデータ分析基盤Data Lakeについて、ハンズオンにトライしてみました。 Datalake Handson 本記事では、Lab4~Lab6のニアリアルタイムデータ分析環境(スピードレイヤ)を構築していきます。今回は前回のLab3が終了した状態で進めているので一部の環境構築は飛ばしていますが、ハンズオンではLab4からでも試せるように手配されています。 Lab4: アプリケーションログの永続化と長期間データの分析と可視化 Lab4: アプリケーションログの永続化と長期間データの分析と可視化 Lab4は、ログデータをKinesis Data FirehoseでS3に保存し、Glueでスキーマを作成し、Athenaでアドホック分析を行う環境を構築します。(月額費用がかかるQuickSightはスキップ

                                                                              【AWS Data Lake】長期間のデータをバッチ分析する環境・バッチレイヤを構築してみた(ハンズオン2) | DevelopersIO
                                                                            • AWS re:Invent 2022 「for Apache Spark」に見るデータエンジニアリングのトレンド - Qiita

                                                                              はじめに 株式会社NTTデータ Data & Intelligence事業部 の nttd-saitouyun です。 昨年12月の AWS re:Invent 2022 にて、以下の「for Apache Spark」機能が発表されました。 Amazon Redshift integration for Apache Spark Amazon Athena for Apache Spark Amazon DataZoneなど他にも目玉はあるものの、re:Inventで「for Apache Spark」という名がついた機能が2つも発表されていることには意味があると考え、本記事では、なぜ今「for Apache Spark」なのかについて考察してみました。 「for Apache Spark」について Apache Spark とは Apache Sparkは、大規模なデータに対してオンメ

                                                                                AWS re:Invent 2022 「for Apache Spark」に見るデータエンジニアリングのトレンド - Qiita
                                                                              • [レポート]Data Lake vs Data Warehouse? | DevelopersIO

                                                                                奈良県でリモートワーク中の玉井です。 Snowflake社の下記のウェビナーを受講したので、レポートします。 ウェビナー情報 公式情報 概要 Data warehouses are designed for quick and performant access to data pulled from a lot of different systems. Unfortunately, this can quickly become a complex environment that slows down speed to insight for the business user. Join this master class to learn about the relationship between modern Data Warehouses and Data Lakes. L

                                                                                  [レポート]Data Lake vs Data Warehouse? | DevelopersIO
                                                                                • S3イベントでECSを起動する【前編】 - Qiita

                                                                                  はじめに ユーザがS3にファイルをアップロードした際にそのS3イベントをトリガーとして何らかの変換処理を実施し、DWH/DataLakeに格納する、といった簡易システムのニーズは多い。 今回はLambdaでは処理出来ないような重い処理、かつ不定期な利用頻度である場合にECS Fargateを用いてコスパ良く対処するアーキテクチャの開発を実施するので、備忘として記録する。 今回は前編として、S3 Object CreatedをトリガーとしてECSでコンテナを起動する所までを実装する。後編では、コンテナ内のpythonを用いてRDS for MySQLへのインサートを実装する。 概要 このように、S3のObject CreatedイベントからEventBridgeを噛んでStepFunctionsを起動する。ECSはFargateで済む様であればその方がよく、EC2を使う必要があれば状況に応じ

                                                                                    S3イベントでECSを起動する【前編】 - Qiita