タグ

qiitaとdata-engineeringに関するnabinnoのブックマーク (6)

  • AWS Glue Flexオプションについて - Qiita

    AWS Glue Flexオプション AWS Glueでは2022/08/09にFlexタイプのジョブ実行モードというのが追加されました。 FlexタイプのジョブはEC2のスポットインスタンスのような非占有型のコンピュートキャパシティ上で動作します。 そのため、リソースの使用状況に応じてジョブの開始に時間がかかる場合などがありますが、その分コスト的には通常のジョブに比べ安価になっています。 テスト用途のジョブや実行時間の制約の緩い夜間のバッチジョブなどでコストを安価に抑えながらジョブを実行できるオプションになります。 Flexオプションのコスト 2022年11月現在、東京リージョンではFlexオプションは通常のジョブに比べ最大34%のコスト削減効果があります。 通常 Flex Flexオプションの特徴 FlexオプションはGlue 3.0またはそれ以降のバージョンのETLジョブで利用可能で

    AWS Glue Flexオプションについて - Qiita
  • AWS Glueとは何か? - Qiita

    こいつに入門します。 一言でいうと… マネージドETLサービスです。 ETLとは「Extract/Transform/Load」の略で、分析用に様々なデータを集める際に発生する「取り出す/変換する/取り込む」というプロセスを表しています。 Glueとは「糊」のことで、ETLにおいてAWSのリソースとリソースを繋ぐことの比喩になっているようです。 ※ややこしいですがDevOps Guruというサービスも最近出現しています。このGuruは「賢者」を表す別単語で、機械学習を活用した賢いサービスを比喩しているものと思われます。 Glueの概念図 データソースから取り込んだデータをETLジョブで加工し、ターゲットに格納して分析などに利用します。 Glueのコンポーネント データカタログ ETL処理をしたいデータのメタデータを管理するもの。元データ(データソース)からGlueのクローラーで抽出してきた

    AWS Glueとは何か? - Qiita
  • AWS Glue Data Catalog を理解する - Qiita

    AWS Glue Data Catalog を理解するために 初めてクラウドサービスを使用する&初めてAWS Glue で ETL 処理のジョブを作って色々やってみようとするとき、不意に登場するのが AWS Glue Data Catalog ではないだろうか。 「何のために Data Catalog は存在するのだ?」 「Data Catalog はなくても ETL できるんじゃないの?」 こんな思いをした皆さんにこの記事が参考になれば幸いです。 来はより詳細な Data Catalog技術記事を紹介しようと思いましたが、今回は「Data Catalog は重要なのね」と理解することがゴールになります。また、ただのツール説明ではなく、データエンジニアリングやデータ基盤を構築するデータエンジニアとしての視点を交えて書いてみました。 とりあえず AWS Glue Data Catalo

    AWS Glue Data Catalog を理解する - Qiita
  • 「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita

    目次 はじめに 背景と目的 Databricksとは何か 機能紹介 共通 データエンジニアリング 機械学習 Databricks SQL おわりに はじめに こんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。 お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。 記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。 今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします! 背景と目的 皆様の中には Databricks という会社に馴染みがない方も多いと思います。 米国カリフォルニア州に社が

    「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita
  • 2023年版データ分析の100冊 - Qiita

    データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析機械学習関連のがご好評いただいてましたが古くなりごちゃごちゃしているので新たに作り直しました 記事のめあて IT系の技術者の方がデータ分析関連の仕事をするために役立つを紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております。 記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・PerlMySQL)からRで時系列分析→Pythonデータ分析一般と業務をしてまいりました。 ですので研究者目的のはありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせてPythonを中心に、Rのは参考程度にしています(記事のR版のご要望があれば爆裂書きます!) こういうリストをあげる奴は大抵読んでいない、と過去にも言われたのですが、ほとんど読ん

    2023年版データ分析の100冊 - Qiita
    nabinno
    nabinno 2023/08/27
    S&OPをマーケティングの中に入れるのは微妙。それよりS&OPの中にマーケティングを入れた方が、需給調整という意味で広い視野を獲得できるよ。
  • AWS Glue DataBrewを試してみた - Qiita

    はじめに この記事は BeeX Advent Calendar 2020 の12/21の記事です。 == 今回は11/13に発表されたAWS Glue DataBrewを試していきます。 AWS Glue DataBrew の発表 AWS公式の以下ドキュメントを元にして進めます。 AWS GLue DataBrewの概要 AWS Glue DataBrewとは AWS公式には、Glue DataBrewとは「コードを記述せずにデータをクリーンアップおよび正規化できるビジュアルデータ準備ツール」と記載されています。 簡単に言うと、今までデータ分析などで行っていた前処理をノーコードで行うことができ、かつサーバレス構成でインフラの管理もAWSに任せてしまえるサービスになります。 便利。 今回のゴール Glue DataBrewの操作方法が何となくでも理解できること チュートリアルを元に構築ができ

    AWS Glue DataBrewを試してみた - Qiita
  • 1