こんにちは。データサイエンスチームのhongsです。 この記事は、DataScience Advent Calendarの17日目の記事です。 この記事では、AWS GlueとAmazon Machine Learningを活用した 予測モデル作成について紹介したいと思います。 以前の記事(AWS S3 + Athena + QuickSightで始めるデータ分析入門)で 基本給とボーナスの関係を散布図で見てみました。 (基本給は年間の基本年収、ボーナスは年間ボーナスを意味します。) その結果、基本給とボーナスは比例していて強い関係性を持っているように見えました。 つまり、基本給が分かれば何となくボーナスがいくら出るか予測が出来そうです。 この何となくの部分をAWSのMachine Learningを使って予測モデル化してみたいと思います。 相関係数と異常値の確認 予測モデルを作成する前に
AWS Glueで自動生成されたETL処理のPySparkの開発について、AWSコンソール上で修正して実行確認は可能ですがかなり手間になります。 そこで開発エンドポイントを使って開発する方法が提供されており、Apache Zeppelinなどを使ってインタラクティブに開発することができます。公式ドキュメントによると、エンドポイントを利用して開発する方法としては大きく以下の4つの方法が提供されています。 ① EC2上にApache Zeppelinを構築して開発エンドポイントへ接続 ② ローカルマシンにApache Zeppelinを構築して開発エンドポイントへ接続 ③ 開発エンドポイントへ直接sshしてREPL Shellを利用する ④ PyCharmのProfessional editionで開発エンドポイントへ接続 ①の方法がコンソールからワンクリックで開発環境を構築することができるの
RedshiftのデータをAWS GlueでParquetに変換してRedshift Spectrumで利用する際のTips集AWSredshiftgluePyspark RedshiftのデータをAWS GlueでParquetに変換してRedshift Spectrumで利用するときにハマったことや確認したことを記録しています。 前提 Parquet化してSpectrumを利用するユースケースとして以下を想定しています。 テーブルにある、全データをParquet化した後にテーブルを削除(または、全データを洗い替えする) -> Redshift Spectrumからのみ利用するようにする。 テーブル内の一部データ(特定の日付以前のデータのみ)をParquet化して、テーブルからParquet済みのデータを削除する。 -> 利用頻度の高いデータはRedshiftに残しておき、利用頻度の低い
Amazon Web Services ブログ AWS Developer Toolsを使用したサーバレスなAWS Glue ETLアプリケーションの継続的インテグレーションとデリバリの実装 大規模なデータおよびデータレイクのワークロード用にサーバーレスETL(抽出、変換およびロード)アプリケーションを開発するためにAWS Glueはますます普及しています。 ETLアプリケーションをクラウドベースのサーバーレスETLアーキテクチャに変換する組織は、ソースコードからビルド、デプロイ、プロダクトデリバリまで、シームレスでエンドツーエンドの継続的なインテグレーションおよび継続的なデリバリ(CI / CD)パイプラインが必要です。優れたCI / CDパイプラインを持つことで、組織はプロダクションリリース前にバグを発見し、より頻繁にアップデートを提供することができます。また、開発者が高品質のコードを
Redshift SpectrumやAthenaを使っていたり、使おうとするとS3に貯めている既存ファイルをParquetやAvroに変換したいということがあります。 AWS Glueを利用してJSONLからParquetに変換した際の手順などを記述しています。 S3上のファイルを変換するだけならばData catalog/Crawl機能は利用せずに、ETLのJobを作成するだけで利用できます。 Data catalogの作成からのGlue一連の流れを確認したい場合はクラスメソッドさんの『AWS Glue 実践入門:サービスメニュー内で展開されている「ガイド付きチュートリアル」を試してみた』が参考になるかと思います。 ジョブの作成 メニューの ETL > Jobs からAdd Jobを選択すると以下のような画面が出てきます。 以下の3項目以外は後から変更可能です。 Name This jo
こんにちは、データ分析部の阿部です。 作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。 今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとは データの準備 テーブル作成 速度測定 まとめ Athenaとは 本日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ(CSV, JSON, その他フラットファイル)に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。 課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go
事前に作りたいキーがはっきりしていればLSIが作成できるが、パーティションキーとの組み合わせに限定される。 GSIなら後から作成可能で、パーティションキー以外での検索要件も満たすことが出来るためRDBの様な柔軟な検索も可能になる。 課金 DynamoDBはプロビジョニングされたスループットに対して課金される。 スループットは読み込み・書き込み用に予約されたキャパシティのみ使用できる。 – 書き込み 1ユニット=1KBあたりのアイテムについて、1秒あたり1回の書き込みが可能 – 読み込み 1ユニット=最大1KBのアイテムに対して、「強い整合性のある読み込み」を1秒あたり1回できる(「結果的に整合性のある読み込み」については1秒あたり2回) ユニット数の計算 必要な容量のユニット数 = 1秒あたりの項目書き込み/書き込み数 * 項目のサイズ(KB切り上げ) (書き込みは読み込みの5倍のユニット
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く