本文「DataLake」を検索 - はてなブックマーク

41 - 80 件 / 94件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DataLakeの検索結果41 - 80 件 / 94件

AWS Lake Formationのチュートリアルをやってみた！ | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2020/04/17
前回のブログでAWS Lake Formationを少し触ってみましたが、イマイチ概念がつかめなかったのでこちらのチュートリアルもやってみようと思います。チュートリアルは2つ用意されているのですが、今回は Tutorial: Creating a Data Lake from an AWS CloudTrail Source をやっていきます。 ※個人的にわかりやすい手順にまとめているので、実際のステップと異なる部分がありますが、ご了承ください。 Lakeformationとは？個人的に押さえておきたいポイントは次の3つです。 IAMを拡張した独自のアクセスコントロールモデルによるきめ細かなアクセス制御が可能 AWS Glueの拡張機能（データカタログ、ジョブ、クローラー、ワークフローなどの実態はGlueのそれ） AWS Lake Formation自体は無料だが、配下のサービス利用費
- aws
- あとで読む
AWSにおけるHudi/Iceberg/DeltaLakeの使いどころと違いについて
- 7 users
- pages.awscloud.com
- テクノロジー
- 2023/06/05
- AWS
- あとで読む
【AWS試験】2ヶ月で6つのSpecialty試験に合格できたので、その勉強方法をまとめてみた | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2023/06/02
こんにちは！体内の 6 割は水分ではなく、えびだと思うくらいえび好きな kaz です。先日、SAP on AWS - Specialty に合格して、無事 12 冠達成できました！思っていたよりも短い期間で取得できたかなと思ったので、なぜ 12 冠を目指そうと思ったのかや、勉強方法などを振り返ってみようと思います。また、多くの方は AWS 試験を受ける前に外部の情報などを確認したりすることも多いかなと思います。なので、本エントリーはただのリンク集ではなくて、私が各試験で勉強に利用した情報のみを載せるようにしました！これから 12 冠を目指したい！と思っている方や、短期間取得を目指す際の参考になれば幸いです！なぜ12冠を目指そうと思ったのか何よりも AWS を利用した業務や、技術サポートに携わっているからです！その他にも、もう少し理由を並べてみたいと思います。 AWS の知識
- あとで読む
データレイク解説シリーズ第 1 回 : データレイクってなに ? - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
- 7 users
- aws.amazon.com
- テクノロジー
- 2020/03/03
こんにちは。今回から 4 回の予定でデータレイクについての連載をスタートします。現在データレイクの書籍を 4 名で執筆中なのですが、そこからエッセンスとなるポイントを抜き出し、builders.flash を読んでいただいている皆様にコンパクトにお届けします。第一回は「データレイクってなに？」です。データレイクを一言で表すならば、多様なデータを一元的に、大量に保存して置ける場所です。データベースに入っているような構造化されたデータも、ソーシャルメディアのメッセージも、画像や音声ファイルも一箇所に集めたデータ置き場という意味です。これを読んでいる皆様は「データベースでは駄目なの ?」と思われるかもしれませんね。巨大なデータを扱うという意味ではデータウェアハウスもありますが、これとはどう違うのでしょうか？今回はデータレイク理解の最初の一歩として、データレイクは、データベースやデータウェア
- データレイク
- AWS
【レポート】最新の DWH およびデータレイク動向について(AWS-36) #AWSSummit | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2022/05/27
みなさんこんにちは、杉金です。今回は 2022 年 5 月 25 - 26 日の 2 日間開催された AWS Summit Onlineのセッションレポートをしていきます。セッションのサマリーを理解し、興味があるセッションをチェックすることにご活用ください。また、セッションのアーカイブも公開されておりますので、詳細が気になった方は是非そちらをチェックして下さい。セッション概要生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに
- aws
- あとで読む
AWS Certified Data Analytics – Specialty(DAS) を取得できたので振り返ってみた | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2021/02/17
先日AWS Certified Data Analytics – Specialty(DAS)を取得できたので、振り返りとして私自身の試験対策などについてまとめておきます。前提私の経験や前提知識について簡単に記載します。 AWSの実務経験本格的な実務経験はクラスメソッドにジョインしてからなので、1年未満です。実務では、S3、Redshiftなどをメインに扱っています。取得済みAWS認定試験 SAA(ソリューションアーキテクト – アソシエイト) SAP(ソリューションアーキテクト – プロフェッショナル) スケジュール下記のとおりです。対策期間としては、約1.5ヶ月です。 2020/12/14〜試験対策を開始(データレイクハンズオン・サンプル問題などを実施) 2020/12/21〜 Udemyで動画視聴・ミニテストを実施 2021/01/08〜年末年始はあまり対策できずに年
- あとで読む
Binary logging optimizations in Amazon Aurora MySQL version 3 | Amazon Web Services
- 7 users
- aws.amazon.com
- テクノロジー
- 2024/05/18
AWS Database Blog Binary logging optimizations in Amazon Aurora MySQL version 3 The binary log (binlog) in MySQL is used to capture database modifications on a MySQL server in a logical format known as “events”. These database modifications can include DCL statements (such as CREATE USER or GRANT), DDL statements (CREATE TABLE, ALTER TABLE) and DML statements (INSERT, UPDATE, DELETE). When such a
- MySQL
- あとで読む
冪等性を担保したGoogle Cloud Composerの設計と実装
- 6 users
- zenn.dev/luup_developers
- テクノロジー
- 2022/08/01
こんにちは！ 2022年2月からLuupにデータエンジニアとしてジョインした河野(@matako1124) です！元々マイクロモビリティに興味があり、データ基盤もこれからきっちり作っていきたいという0からのフェーズで、お声がけをいただけたことに感謝です。現在、Luupのデータチームの構成は、Data Strategy部の中にData EngineeringチームとData Scienceチームの２つがある形となっています。 Data Engineeringチームとしては前回の記事執筆者@t-kurimuraと私の二人で取り組んでいます！ということで、まだ入社数ヶ月の私ですが、Luupでのデータ基盤としてGoogle Cloud Composerを導入し、どのように冪等性を担保した設計にしようとしているかご紹介していきたいと思います。注意記事執筆から半年ほど経過しており、現在の最新
- あとで読む
amazon-s3-datalake-handson/JP at master · aws-samples/amazon-s3-datalake-handson
- 6 users
- github.com/aws-samples
- テクノロジー
- 2019/12/19
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Raspberrypi zero WとEdge TPUを活用した侵入者通知アプリを作る - Y's note
- 6 users
- yut.hatenablog.com
- テクノロジー
- 2019/09/27
やること yut.hatenablog.com @yutakikuchi_です。以前のBlog PostでRaspberrypi zeroとABEJA Platform(Cloud環境)を活用した侵入者通知アプリを作りました。解決したい課題としては、1階のマンションに住んでいる場合、庭・バルコニーへの不審者の立ち入りが気になります。そこで簡易的なRaspberrypiとLINE Botを利用し、簡易的な写真付きの侵入者通知アプリを作りたいと思いました。前回はRaspberrypi側にcronで5秒間隔にて画像を撮影し、撮影された画像ををそのままABEJA PlatformのAPIへpostし、SSDにて人物検出を行いました。ただし、これには5秒以内に人がカメラの中に収まることを前提にしたものだったので、侵入者を見落とす可能性がありました。今回は人物検出をEdge側にてSSDで行い、リア
- 画像
- あとで読む
社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話 - Classi開発者ブログ
- 6 users
- tech.classi.jp
- テクノロジー
- 2022/06/21
こんにちは、データエンジニアの滑川(@tomoyanamekawa)です。 Classiでは2022年5月に学校内のユーザー利用状況を集計し可視化したダッシュボード機能をリリースしました。この機能のデータ集計は既存の社内用データ基盤からのReverse ETLで実現しました。そのアーキテクチャの説明と「社内用データ基盤」から「ユーザー影響あるシステムの一部」になったことによる変化について紹介します。ダッシュボード機能とは概要先生のみが利用可能な機能先生と学年・クラスごとの生徒の利用状況を可視化したダッシュボードを提供する機能要件・制約アプリケーションはAWS上で動かす前日までの利用状況がアプリケーション上で朝8時までに閲覧可能になっていること学校/学年/クラスごとで集計する学校を横断した集計はしない既存の社内用データ基盤とは社内でのデータ分析を主な用途としているB
How Amazon is solving big-data challenges with data lakes
- 6 users
- www.allthingsdistributed.com
- テクノロジー
- 2020/01/31
How Amazon is solving big-data challenges with data lakesJanuary 20, 2020 • 2157 words Back when Jeff Bezos filled orders in his garage and drove packages to the post office himself, crunching the numbers on costs, tracking inventory, and forecasting future demand was relatively simple. Fast-forward 25 years, Amazon's retail business has more than 175 fulfillment centers (FC) worldwide with over 2
- amazon
AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
- 5 users
- zenn.dev/simpleform_blog
- テクノロジー
- 2024/04/16
こんにちは。シンプルフォーム株式会社にてインフラエンジニアをしています、山岸です。社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。概要当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま
- aws
データ基盤へのdbtとCI/CDの導入を内定者がやってみた！ | | AI tech studio
- 5 users
- cyberagent.ai
- テクノロジー
- 2023/03/08
AI事業本部アプリ運用センターでデータサイエンティストをしている河中と申します。今回は内定者としてアルバイトに参加している23卒内定者の稲葉さんに、信頼性が高く分析しやすいデータ基盤を構築するためにdbtというツールを導入するタスクに取り組んでもらいました。その中での技術的な話や内定者バイトを通して学んだことをブログにまとめてくれました。ぜひ一読ください！ 23卒エンジニア職内定者の稲葉です。2022年10月から3ヶ月間、AI事業本部小売DXディビジョンのアプリ運用センターでアルバイトをさせていただきました。私は、今までデータサイエンティストやバックエンドエンジニアなど幅広く技術に関わってきましたが、今回はアナリティクスエンジニアとしてデータ基盤の改修を行いました。本稿では、Snowflake上で構築されているデータ分析基盤を dbtやgithub actionsのCI/CDを用い
- dbt
データレイク解説シリーズ第 4 回: 実践的なデータレイク構築方法とポイント - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
- 5 users
- aws.amazon.com
- テクノロジー
- 2020/06/02
こんにちは。AWS Glue & Lake Formation 開発チームの関山です。この「データレイク解説シリーズ」では 2020 年 6 月出版予定の書籍「AWS ではじめるデータレイク」をベースに、全 4 回でデータレイクのエッセンスをお伝えしています。最終回となる今回は、実践的なデータレイク構築方法とそのポイントについて解説していきます。今回は例として、図のような構成の一般的なウェブシステムのログデータをもとに、データレイクを構築していきます。 AWS ではデータレイクのストレージとして、Amazon S3 をオススメしています。そこで、ログデータを何らかの方法で収集して S3 にアップロードする必要があります。ログデータはその性質上、いろんなところに点在しがちです。AWS で構築したシステムでも、EC2 インスタンスのローカルディスクにあったり、S3 にあったり、Cloud
- aws
amazon-s3-datalake-handson/JP/README.md at master · aws-samples/amazon-s3-datalake-handson
- 5 users
- github.com/aws-samples
- テクノロジー
- 2020/03/22
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- aws
- education
Amazon S3 データレイクハンズオン実施時の注意点 (2020年12月) | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2020/12/15
哈喽大家好、コンサルティング部の西野です。 AWS認定試験のひとつである AWS Certified Data Analytics - Specialty を近日中に受験しようと思っています。が、「データ分析？データレイク？なんもわからん」という状態なので、まずは公式のハンズオンをやってみました。 aws-samples/amazon-s3-datalake-handson 本稿では、2020年12月時点で本ハンズオンを実施する際に注意するべき点について記します。ハンズオンの詳細についてはご自身で実施し確認いただくか、先人たちのブログをご参照ください。（前者を強くおすすめします。）注意点ハンズオンをやっていくなかで私がハマった・ハマりかけた部分について紹介します。 Elasticsearch ドメインのバージョンについて (Lab2 Section1 Step1) 2020年現
デカ過ぎて固定資産税がかかりそうな GCS 上の古いデータをアーカイブする | メルカリエンジニアリング
- 5 users
- engineering.mercari.com
- テクノロジー
- 2020/08/27
この記事は、 Merpay Tech Openness Month 2020 の 2 日目の記事です。こんにちは。メルペイ DataPlatform チーム、ソフトウェアエンジニアの @syucream です。主にメルペイのデータ基盤の開発・運用の業務に携わっております。今回はみんな大好きお金とビッグデータとコスト削減のお話をします。はじめに様々なデータを収集して横断的に分析可能にする、いわゆるデータ基盤には少なくないコストが掛かります。「ビッグデータ」という言葉が示すような大量のデータを保存して処理する際には、永続化のためのストレージコストがかかります。この課題は我々メルペイ DataPlatform チームも無関係ではありません。以前の記事で紹介させていただきましたが、我々のデータ基盤はさまざまなマイクロサービスからのデータベースや出力されたログを横断管理できるようにしています
急成長する《現場》の、データエンジニアというお仕事。 - Qiita
- 5 users
- qiita.com/Nimimal
- テクノロジー
- 2019/10/17
なんの話？三行で。サービスが急成長しデータ量が増えた際にデータエンジニアリングは必要とされる。エンジニアリングに必要なスキルセットは比較的明確で、駆け出しエンジニアにもポジションあるよ。データエンジニアリング業務を経て、データサイエンティストなど他職種にランクアップすることは可能。 [おまけ1]　"data+engineer+positionでググる"と、主に海外のData Engineer(DE職)のお仕事が入門者レベルからエキスパートレベルまで見つかるよ...Tokyoをつけると、東京でのDE職も見つかる。転職活動で普通に有用。 *[おまけ2]　末尾におまけとして、現在私が取り組んでいる『2020年代のデータ分析基盤の基本設計』に関して日々調べていることを、公開できる範囲で書いておきたい(内容はコメント欄に随時更新)。実際のデータエンジニアリング実務の一端を知ってもらう意味で。
- あとで読む
Amazon Redshift のパフォーマンスチューニング十ヶ条まとめ - Qiita
- 5 users
- qiita.com/suzukihi724
- テクノロジー
- 2022/12/26
Amazon Redshift は Serverless版もGAされ、さらにATO：Automatic Table Optimization（自動テーブル最適化）など、従来からある Provisioned版含めてパフォーマンスチューニングがどんどん自動化されてきている。一方で、実運用では高負荷など使い方によって問題が全く起こらないことは考えにくく、困った時にチューニングの余地があることはメリットでもある。以下の公式ブログの Tips をもとに困った時のチューニング対処ポイントをまとめる ※ 記事は 2020年のものなので、その後新機能でカバーできる点や、主観的な考えについて適宜補足しています。 [1] マテリアライズドビューを使う予測可能で何度も繰り返されるクエリに特に効果を発揮する内部テーブルだけでなく、外部テーブル（Spectrumやフェデレーション）にも使えるマテビューの
- Redshift
- AWS
GitHub - blobcity/db: A blazing fast ACID compliant NoSQL DataLake with support for storing 17 formats of data. Full SQL and DML capabilities along with Java stored procedures for advanced data processing.
- 4 users
- github.com/blobcity
- テクノロジー
- 2019/08/04
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
[新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされました | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2021/04/14
[新機能] Amazon Redshift データレイクのデータ更新がシンプルになるUNLOADコマンドのCLEANPATH指定がサポートされましたデータアナリティクス事業本部コンサルティングチームの石川です。本日は、新たに追加になったUNLOADコマンドのCLEANPATH指定をご紹介します。S3パスにアンロードする前に、既存のファイルを削除する指定で、データレイクのデータ更新がシンプルになります。早速試してみます。 CLEANPATH指定とは UNLOADコマンドのCLEANPATH指定は、S3パスにアンロードする前に、既存のファイルを削除します。例えば、 UNLOAD ('SELECT * FROM tickit.date') TO 's3://cm-bucket/datalake/tickit/sales/' IAM_ROLE 'arn:aws:iam::12345678912
- あとで読む
Dataplexを徹底解説！ - G-gen Tech Blog
- 4 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/11/08
G-gen の神谷です。本記事では、Google Cloud のスケーラブルでサーバレスなデータ管理ツールである Dataplex を徹底解説します。 Dataplex の概要 Dataplex とはメリットデータメッシュとは構成とオブジェクト Dataplex Discovery Dataplex Discovery とは Discovery Action アクセス制御認証・認可 (IAM) IAM の基本的な理解アセットと IAM プロジェクトをまたぐ権限管理 VPC Service Controls 属性ストアデータの品質チェック Dataplex におけるデータ品質の検証自動データ品質自動データ品質とはデータ品質タスクデータプロファイリングロギングとモニタリングロギングモニタリング料金その他の機能ビジネス用語集データ探索ワークベンチ Dataple
[新機能]AWS Glue Studio Spark SQLクエリを使用した変換が可能になりました | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2021/04/17
データアナリティクス事業本部コンサルティングチームの石川です。AWS Glue Studioは SQLを使用して変換を定義する新しいTransform「Spark SQL」が追加されました。Spark SQLによる結合・集計・フィルタ・変換をAWS Glue Studio のビジュアルトランスフォームとシームレスに融合させることができるようになりました。本日は、新しいTransform「Spark SQL」を用いたETLを試します！ Spark SQLクエリを使用した変換とは Spark SQLとは、Apache SparkがサポートするANSI準拠のSQLです。Spark SQL用いて複数のDataFrameを結合・集計・変換したDataFrameを生成できます。従来、Spark SQLクエリを利用するには、Custom Transformを用いてSparkのスクリプトを書く必要があり
- AWS
Snowflake Summit 2024で発表されたアプリケーション機能群のアップデートポイント - Qiita
- 4 users
- qiita.com/toru_hiyama
- テクノロジー
- 2024/06/05
はじめに本記事は、Snowflake Data Cloud Summit 2024 の Platform Keynote で発表されたデータアプリケーション機能に関連するアップデート情報を紹介します！セッションとしては、後半の後半のあたりに該当する部分です。本キーノートの配信を視聴することもできるので、気になる方はぜひ御覧ください！本記事では、下記の項目で解説します。 Snowpark for Python Snowflake Notebooks Snowflake Cortex Snowpark Container Services Hybrid Table Dev/MLOps また先日、同様のカテゴリで各機能の概要を解説した記事も投稿しています。ぜひあわせて御覧ください！概要 Platform Keynote では、様々なアップデートの発表がありました！特に、アプリ・LLM 系の
- python
数千rpsを処理する大規模システムの配信ログをHadoopで分析できるようにする〜ショッピングのレコメンドシステム改修
- 4 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/12/14
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でYahoo!ショッピングのレコメンドシステムを開発している山口です。本記事では、システムの配信ログを大規模データの分散処理が可能な社内のApache Hadoop環境（以下Hadoop）に保存できるように、システム改修した取り組みについて紹介します。今回改修したレコメンドシステムは、毎秒数千のリクエストを処理する大規模なシステムです。レコメンドシステムから直接Hadoop環境に大量のログを送れるようになったことで、配信情報を素早く、そして簡単にログとして保存できるようになり、日々レコメンドの機械学習モデル改善に役立っています。 Yahoo!ショッピングのレコメンドとは Yahoo!ショッピングで
Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2023/01/27
AWS Big Data Blog Introducing native support for Apache Hudi, Delta Lake, and Apache Iceberg on AWS Glue for Apache Spark, Part 1: Getting Started AWS Glue is a serverless, scalable data integration service that makes it easier to discover, prepare, move, and integrate data from multiple sources. AWS Glue provides an extensible architecture that enables users with different data processing use cas
- aws
- あとで読む
週刊Railsウォッチ: rubygemsに「scoped gems」の提案、RSpecのブロック構文ほか（20220517後編）｜TechRacho by BPS株式会社
- 4 users
- techracho.bpsinc.jp
- テクノロジー
- 2022/05/17
週刊Railsウォッチについて各記事冒頭には🔗でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ「つっつきボイス」はRailsウォッチ公開前ドラフトを（鍋のように）社内有志でつっついたときの会話の再構成です👄 お気づきの点がありましたら@hachi8833までメンションをいただければ確認・対応いたします🙏 TechRachoではRubyやRailsなどの最新情報記事を平日に公開しています。TechRacho記事をいち早くお読みになりたい方はTwitterにて@techrachoのフォローをお願いします。また、タグやカテゴリごとにRSSフィードを購読することもできます（例:週刊Railsウォッチタグ） 🔗Ruby 🔗 scoped gemsの提案（Ruby Weeklyより）元記事: Scoped gems proposal by mullermp ·
【開催報告＆資料公開】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2023/11/06
Amazon Web Services ブログ【開催報告＆資料公開】現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編) 本ブログでは2023年9月21日（木）に開催された、「現場の業務変革を実現するAI・データ活用(鉄道/運輸編・建設/プラント編)」のご講演サマリをお届けします。 1. JR九州の「AWS×データ分析」によるDX推進の取り組み 2. 電気設備に対する画像分類モデルの開発と生成AIを活用した異常画像生成の取り組み 3. 「建設デジタルプラットフォーム」によるデジタルデータ活用 4. ファストデジタルツインでちゃぶ台返し～保全の現場から市場を創る、ものづくりを変える～ 5. 現場業務変革を実現するAWSテクノロジー 1. JR九州の「AWS×データ分析」によるDX推進の取り組み資料ダウンロード九州旅客鉄道株式会社様 (JR九州様)　からは、A
- あとで読む
【レポート】Architecting and Building – ログデータ用のデータレイク＆分析環境をクイックに構築するには？ #AWSSummit | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/09
はじめに皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です！！本エントリではライブセッション「AAB-03：Architecting and Building - ログデータ用のデータレイク＆分析環境をクイックに構築するには？」のレポートをお届けします。概要スピーカーアマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト下佐粉昭アマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト野間愛一郎セッション概要ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお
- aws
- あとで読む
分断されたデータをひとつのデータプラットフォームに統合　LINEのIUに立ちはだかる3つの問題
- 4 users
- logmi.jp
- テクノロジー
- 2021/12/01
2021年11月10日と11日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2021」がオンラインで開催されました。そこで奥田輔氏が、LINEのデータをひとつにまとめ上げてデータプラットフォームを作り上げた経緯について共有しました。前半はデータプラットフォームを作り上げるための課題について。本セッションがどのような人に役立つのか奥田輔氏：LINE株式会社 Data Engineeringセンター、Data Platform室の奥田輔と申します。このセッションでは「分断されてしまったデータを2,000台を超えるひとつのデータプラットフォームに統合した話」と題して、LINEにおけるデータプラットフォームがかつて抱えていたデータの分断という課題、それがどのようなものであったか、そしてその課題をどのように解決したかを紹介します。
- あとで読む
Trivyを利用して、S3のセキュリティチェックや推奨設定の監査を行う
- 4 users
- techblog.kazaneya.com
- テクノロジー
- 2023/12/06
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。ぜひカジュアルトークをお申し込みください。風音屋兼業エンジニアの “宮地克弥”（@int_tt）です。データ分析基盤を構築するのに必要な不可欠なものとしてデータレイクが挙げられます。AWS を利用して構築する際には Amazon S3 の利用が推奨されています。【公式参照】AWS 上でのデータレイク - Amazon S3 データレイクでデータサイロを排し、大規模で簡単な分析を可能にする Amazon S3 はデータレイク以外にも静的コンテンツ置き場として幅広い用途で利用されています。安価かつ簡単に利用することが出来る一方、設定を 1 つ間違えると情報流出に繋がる
- aws
- security
Using AWS CodePipeline for deploying container images to AWS Lambda Functions | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2021/08/21
AWS DevOps Blog Using AWS CodePipeline for deploying container images to AWS Lambda Functions AWS Lambda launched support for packaging and deploying functions as container images at re:Invent 2020. In the post working with Lambda layers and extensions in container images, we demonstrated packaging Lambda Functions with layers while using container images. This post will teach you to use AWS CodeP
- あとで読む
IAMポリシーのワークショップをやってみた | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2023/07/28
AWS Workshopの「How and when to use different IAM policy types」をやってみましたはじめにデータアナリティクス事業本部のおざわです。 7月25日は、自宅で井上尚弥選手の試合を観戦して盛り上がっていました。勝利者インタビューで「まだ改善の余地がある」と答えていたのが印象的でした。次の試合も楽しみですね。今回は、AWSのWorkshop Studioの中から「How and when to use different IAM policy types」というワークショップをやってみました。普段、IAMポリシーを自分で設定する機会があまりなかったので、自分で手を動かしながらいろいろと試したくなったというのが理由です。いまのところ英語版しかないようです。環境構築はワークショップ用のCloudFormationテンプレートが用意されてい
Amazon DataZone とはどんなサービスか - Qiita
- 4 users
- qiita.com/hayao_k
- テクノロジー
- 2022/12/12
この記事は AWS Advent Calendar 2022 12日目の記事です。はじめに先日開催された AWS re:Invent 2022 で新しいデータ管理サービスである Amazon DataZone が発表されました。 Amazon DataZone を使用すると AWS やオンプレミス、サードパーティのソースに保存されているデータのカタログ化、発見、共有、および管理が簡単に行えるようになります。本記事では 2022/12/11 時点の公開情報と re:Invent 2022 のセッション内容 (ANT344: Democratize data with governance: Bring together people, data, and tools) をもとに Amazon DataZone が提供する機能について掘り下げていきたいと思います。セッション資料ブレイ
- aws
- あとで読む
Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2020/08/05
AWS Big Data Blog Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation April 2024: This post was reviewed for accuracy. Organizations collect and analyze more data than ever before. They move as fast as they can on their journey to become more data driven by using the insights from their data. Different roles use data for different purposes. For example, data engin
- あとで読む
【AWS Data Lake】長期間のデータをバッチ分析する環境・バッチレイヤを構築してみた（ハンズオン2） | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2019/10/07
こんにちは。DA事業本部の春田です。管理のしやすさや拡張性の高さで注目を集めている、次世代のデータ分析基盤Data Lakeについて、ハンズオンにトライしてみました。 Datalake Handson 本記事では、Lab4~Lab6のニアリアルタイムデータ分析環境（スピードレイヤ）を構築していきます。今回は前回のLab3が終了した状態で進めているので一部の環境構築は飛ばしていますが、ハンズオンではLab4からでも試せるように手配されています。 Lab4: アプリケーションログの永続化と長期間データの分析と可視化 Lab4: アプリケーションログの永続化と長期間データの分析と可視化 Lab4は、ログデータをKinesis Data FirehoseでS3に保存し、Glueでスキーマを作成し、Athenaでアドホック分析を行う環境を構築します。（月額費用がかかるQuickSightはスキップ
- aws
- あとで読む
AWS re:Invent 2022 「for Apache Spark」に見るデータエンジニアリングのトレンド - Qiita
- 3 users
- qiita.com/nttd-saitouyun
- テクノロジー
- 2023/03/26
はじめに株式会社NTTデータ Data & Intelligence事業部の nttd-saitouyun です。昨年12月の AWS re:Invent 2022 にて、以下の「for Apache Spark」機能が発表されました。 Amazon Redshift integration for Apache Spark Amazon Athena for Apache Spark Amazon DataZoneなど他にも目玉はあるものの、re:Inventで「for Apache Spark」という名がついた機能が２つも発表されていることには意味があると考え、本記事では、なぜ今「for Apache Spark」なのかについて考察してみました。「for Apache Spark」について Apache Spark とは Apache Sparkは、大規模なデータに対してオンメ
- あとで読む
[レポート]Data Lake vs Data Warehouse? | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/08
奈良県でリモートワーク中の玉井です。 Snowflake社の下記のウェビナーを受講したので、レポートします。ウェビナー情報公式情報概要 Data warehouses are designed for quick and performant access to data pulled from a lot of different systems. Unfortunately, this can quickly become a complex environment that slows down speed to insight for the business user. Join this master class to learn about the relationship between modern Data Warehouses and Data Lakes. L
S3イベントでECSを起動する【前編】 - Qiita
- 3 users
- qiita.com/bokuikkun
- テクノロジー
- 2023/10/13
はじめにユーザがS3にファイルをアップロードした際にそのS3イベントをトリガーとして何らかの変換処理を実施し、DWH/DataLakeに格納する、といった簡易システムのニーズは多い。今回はLambdaでは処理出来ないような重い処理、かつ不定期な利用頻度である場合にECS Fargateを用いてコスパ良く対処するアーキテクチャの開発を実施するので、備忘として記録する。今回は前編として、S3 Object CreatedをトリガーとしてECSでコンテナを起動する所までを実装する。後編では、コンテナ内のpythonを用いてRDS for MySQLへのインサートを実装する。概要このように、S3のObject CreatedイベントからEventBridgeを噛んでStepFunctionsを起動する。ECSはFargateで済む様であればその方がよく、EC2を使う必要があれば状況に応じ
- techfeed