sh19910711のブックマーク / 2018年5月6日

AWS::Glue::Crawler - AWS CloudFormation

sh19910711 2018/05/06

リンク

AWS GlueとAmazon Machine Learningでの予測モデル | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

こんにちは。データサイエンスチームのhongsです。この記事は、DataScience Advent Calendarの17日目の記事です。この記事では、AWS GlueとAmazon Machine Learningを活用した予測モデル作成について紹介したいと思います。以前の記事（AWS S3 + Athena + QuickSightで始めるデータ分析入門）で基本給とボーナスの関係を散布図で見てみました。（基本給は年間の基本年収、ボーナスは年間ボーナスを意味します。）その結果、基本給とボーナスは比例していて強い関係性を持っているように見えました。つまり、基本給が分かれば何となくボーナスがいくら出るか予測が出来そうです。この何となくの部分をAWSのMachine Learningを使って予測モデル化してみたいと思います。相関係数と異常値の確認予測モデルを作成する前に

sh19910711 2018/05/06

リンク

GitHub - lstoll/cros-crostini

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

sh19910711 2018/05/06

リンク

project-termina - chromiumos/overlays/board-overlays - Git at Google

sh19910711 2018/05/06

リンク

AWS Glueの開発環境（Zeppelin）をDockerで構築する - cloudfishのブログ

AWS Glueで自動生成されたETL処理のPySparkの開発について、AWSコンソール上で修正して実行確認は可能ですがかなり手間になります。そこで開発エンドポイントを使って開発する方法が提供されており、Apache Zeppelinなどを使ってインタラクティブに開発することができます。公式ドキュメントによると、エンドポイントを利用して開発する方法としては大きく以下の4つの方法が提供されています。 ① EC2上にApache Zeppelinを構築して開発エンドポイントへ接続 ② ローカルマシンにApache Zeppelinを構築して開発エンドポイントへ接続 ③ 開発エンドポイントへ直接sshしてREPL Shellを利用する ④ PyCharmのProfessional editionで開発エンドポイントへ接続 ①の方法がコンソールからワンクリックで開発環境を構築することができるの

sh19910711 2018/05/06

リンク

RedshiftのデータをAWS GlueでParquetに変換してRedshift Spectrumで利用する際のTips集 - Qiita

RedshiftのデータをAWS GlueでParquetに変換してRedshift Spectrumで利用する際のTips集AWSredshiftgluePyspark RedshiftのデータをAWS GlueでParquetに変換してRedshift Spectrumで利用するときにハマったことや確認したことを記録しています。前提 Parquet化してSpectrumを利用するユースケースとして以下を想定しています。テーブルにある、全データをParquet化した後にテーブルを削除（または、全データを洗い替えする） -> Redshift Spectrumからのみ利用するようにする。テーブル内の一部データ（特定の日付以前のデータのみ）をParquet化して、テーブルからParquet済みのデータを削除する。 -> 利用頻度の高いデータはRedshiftに残しておき、利用頻度の低い

sh19910711 2018/05/06

リンク

AWS Developer Toolsを使用したサーバレスなAWS Glue ETLアプリケーションの継続的インテグレーションとデリバリの実装 | Amazon Web Services

Amazon Web Services ブログ AWS Developer Toolsを使用したサーバレスなAWS Glue ETLアプリケーションの継続的インテグレーションとデリバリの実装大規模なデータおよびデータレイクのワークロード用にサーバーレスETL（抽出、変換およびロード）アプリケーションを開発するためにAWS Glueはますます普及しています。 ETLアプリケーションをクラウドベースのサーバーレスETLアーキテクチャに変換する組織は、ソースコードからビルド、デプロイ、プロダクトデリバリまで、シームレスでエンドツーエンドの継続的なインテグレーションおよび継続的なデリバリ（CI / CD）パイプラインが必要です。優れたCI / CDパイプラインを持つことで、組織はプロダクションリリース前にバグを発見し、より頻繁にアップデートを提供することができます。また、開発者が高品質のコードを

sh19910711 2018/05/06

リンク

AWS GlueでJSONをParquetに変換する - Qiita

Redshift SpectrumやAthenaを使っていたり、使おうとするとS3に貯めている既存ファイルをParquetやAvroに変換したいということがあります。 AWS Glueを利用してJSONLからParquetに変換した際の手順などを記述しています。 S3上のファイルを変換するだけならばData catalog/Crawl機能は利用せずに、ETLのJobを作成するだけで利用できます。 Data catalogの作成からのGlue一連の流れを確認したい場合はクラスメソッドさんの『AWS Glue 実践入門：サービスメニュー内で展開されている「ガイド付きチュートリアル」を試してみた』が参考になるかと思います。ジョブの作成メニューの ETL > Jobs からAdd Jobを選択すると以下のような画面が出てきます。以下の3項目以外は後から変更可能です。 Name This jo

sh19910711 2018/05/06

リンク

Amazon AthenaをBigQueryと比較してみた

こんにちは、データ分析部の阿部です。作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとはデータの準備テーブル作成速度測定まとめ Athenaとは本日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ（CSV, JSON, その他フラットファイル）に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go

sh19910711 2018/05/06

“Prestoベースということもあり、大きなファイル１つ、ではなく、ある程度のサイズで分割したほうがパフォーマンスは良くなる”

リンク

DynamoDBについて今更調べたのでメモ - メグリ株式会社

事前に作りたいキーがはっきりしていればLSIが作成できるが、パーティションキーとの組み合わせに限定される。 GSIなら後から作成可能で、パーティションキー以外での検索要件も満たすことが出来るためRDBの様な柔軟な検索も可能になる。課金 DynamoDBはプロビジョニングされたスループットに対して課金される。スループットは読み込み・書き込み用に予約されたキャパシティのみ使用できる。 – 書き込み 1ユニット=1KBあたりのアイテムについて、1秒あたり1回の書き込みが可能 – 読み込み 1ユニット=最大1KBのアイテムに対して、「強い整合性のある読み込み」を1秒あたり1回できる(「結果的に整合性のある読み込み」については1秒あたり2回) ユニット数の計算必要な容量のユニット数 = 1秒あたりの項目書き込み/書き込み数 * 項目のサイズ(KB切り上げ) （書き込みは読み込みの5倍のユニット

sh19910711 2018/05/06

"Scanでは常にテーブル全体がスキャンされるが、Queryではキー条件のセットを持たずに特定の範囲のキーだけが検索される"

リンク

はてなブックマーク

タグ

2018年5月6日のブックマーク (10件)

AWS::Glue::Crawler - AWS CloudFormation

AWS GlueとAmazon Machine Learningでの予測モデル | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

GitHub - lstoll/cros-crostini

project-termina - chromiumos/overlays/board-overlays - Git at Google

AWS Glueの開発環境（Zeppelin）をDockerで構築する - cloudfishのブログ

RedshiftのデータをAWS GlueでParquetに変換してRedshift Spectrumで利用する際のTips集 - Qiita

AWS Developer Toolsを使用したサーバレスなAWS Glue ETLアプリケーションの継続的インテグレーションとデリバリの実装 | Amazon Web Services

AWS GlueでJSONをParquetに変換する - Qiita

Amazon AthenaをBigQueryと比較してみた

DynamoDBについて今更調べたのでメモ - メグリ株式会社

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス