タグ

ブックマーク / www.sambaiz.net (4)

  • Task nodes で EMR クラスタのスケールインを高速化する - sambaiz-net

    EMR クラスタは YARN の ResourceManager などが動く Master (primary) node と、 Core nodes および Task nodes から構成される。 Hadoop YARN によってアプリケーションにリソースが割り当てられる流れと割り当てられているリソース量の確認 - sambaiz-net Core nodes と Task nodes のリソースはいずれもタスクの実行に用いられるが、 Core nodes が HDFS の DataNode となるのに対して Task nodes はならない。 そのため、 Core nodes はデータが失われないように Decommission されてから Terminate される必要があるが、 スパイク防止のためレプリケーションの帯域が制限されることから、スケールインするのに時間がかかってしまう。

    Task nodes で EMR クラスタのスケールインを高速化する - sambaiz-net
    sh19910711
    sh19910711 2024/03/08
    "EMR 6.x から YARN のノードラベル機能がデフォルトでオフになり、Task nodes でも ApplicationMaster が実行される / Core nodes のリソースと数を大幅に減らしたところ、CPU使用率が貼りついて task の実行が大幅に遅くなることが" 2023
  • SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する - sambaiz-net

    SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する Spark の Web UI は Job や Executor をモニタリングするためのツール。 aws-glue-samplesから maven:3.6-amazoncorretto-8 ベースでSparkを動かすDockerfileを持ってきて、 History Serverを起動する。Glue で出力された EventLog のパスと認証情報を渡している。 $ git clone https://github.com/aws-samples/aws-glue-samples.git $ cd aws-glue-samples/utilities/Spark_UI/glue-3_0/ $ docker build -t glue/sparkui:latest . $ docke

    SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する - sambaiz-net
    sh19910711
    sh19910711 2022/12/30
    2021 / "WholeStageCodeGenは高速化のため処理ごとではなくStage単位でCode Generationする処理。 ただ生成されるコードが大きいとJVMがJITコンパイルしなくなるのでかえって遅くなることもあるそうだ"
  • Glue DataBrewでデータを可視化して分析するProjectと機械学習の前処理を行うJobをCDKで作成する - sambaiz-net

    Glue DataBrewは、データを可視化してパラメータ間の相関を見たり、カテゴリー変数のエンコードや、欠損値や外れ値を置換する処理をコードなしで実行できるマネージドサービス。KaggleのHouse Prices Competitonの学習データで試してみる。全体のコードはGitHubにある。 KaggleのHouse Prices CompetitionのKernelからデータの探り方を学ぶ - sambaiz-net 料金は30分のセッションごとに$1と、Jobのノード時間あたり$0.48かかる。 ノードには通常のGlueのJobのDPUと同じく4vCPUと16GBのメモリが含まれ、時間あたりのコストの差は$0.04とそれほど大きくない。 使い分けとしては、非エンジニアが使う場合はGUIでデータを加工できるDataBrewを、独自の変換やカスタムコネクターを要する処理は通常のJob

    Glue DataBrewでデータを可視化して分析するProjectと機械学習の前処理を行うJobをCDKで作成する - sambaiz-net
    sh19910711
    sh19910711 2022/07/01
    CDKと相性よさそうだな / "Glue DataBrew: パラメータ間の相関を見たり、カテゴリー変数のエンコードや、欠損値や外れ値を置換する処理をコードなしで実行 + 料金は30分のセッションごとに$1と、Jobのノード時間あたり$0.48"
  • Kubernetesの1PodでAppとfluentdコンテナを動かしてBigQueryに送る - sambaiz-net

    Logging AgentをNodeレベルのDaemonSetとして動かすのではなく、Podの中にSidecar Containerとして動かす。その分リソースはうが、独立した設定で動かせる。 アプリケーション https://github.com/sambaiz/go-logging-sample Goで定期的にログを出すサンプルコードを書いたのでこれを使う。 viperで設定を持ち、 zapでログを出力する。 あとSIGINTを拾ってSync()してGraceful Shutdownするようにしている。 Golangの高速なロガーzapとlumberjackでログを出力してrotateさせる - sambaiz-net multistage-buildして、GKEで動かすのでContainer Registryに上げる。 $ docker build -t go-logging-sa

    Kubernetesの1PodでAppとfluentdコンテナを動かしてBigQueryに送る - sambaiz-net
  • 1