タグ

ブックマーク / qiita.com/suzuki0430 (2)

  • 初学者が遭遇しがちな機械学習モデルの推論時エラーと解決策 - Qiita

    機械学習モデルをトレーニングして推論タスクに適用する際、特に異なるコンピューティング環境(トレーニングはGPU、推論はCPU)を利用する場合に推論がうまくいかないことがよくありました(2クラス予測で0と1を交互に推論するなど)。 そのときにやってしまっていたこととその解決策を簡単にまとめます。 1. モデルのロードミス 推論エンドポイントをCPU(ml.m5.large)で構築したところ、GPU(g4dn.2xlarge)でトレーニングしたモデルが期待通りの推論結果を出力しませんでした。 ログを開いたら以下のWarningがでていました。 2024-04-25T05:47:04,365 [WARN ] W-9000-model_1.0-stderr MODEL_LOG - Some weights of the model checkpoint at /opt/ml/model/code/

    初学者が遭遇しがちな機械学習モデルの推論時エラーと解決策 - Qiita
  • 【SageMaker】Training Jobsでconda activate後に学習を実行する - Qiita

    記事は、AI/ML on AWS Advent Calendar 2022の18日目の記事です。 以前の記事で、TabBERTモデル(IBM論文の付属コード)の環境構築と学習(事前学習、Fine-Tuning)をEC2上で行いました。 動作確認くらいであればこれで問題なかったのですが、いざ番運用を考えてみると、以下のような問題がありそうでした。 学習中以外の時間にかかるEC2のコスト 推論環境を別途たてることになったときの環境再構築コスト 入出力データの管理の手間 調べてみたところ、Amazon SageMakerというAWS機械学習用マネジメントサービスを使えばこれらを解決できそうだったので、技術書展で購入した書籍を参考に、勉強がてらSageMakerを触ってみることにしました。 いざ触ってみるとつまづきポイントが多くて心が折れかけたのですが、1週間粘ってようやくJobを成功させる

    【SageMaker】Training Jobsでconda activate後に学習を実行する - Qiita
    misshiki
    misshiki 2022/12/19
    “SageMaker Training Jobsの構築手順が主ですが、その中につまづいたポイントの記述も行っています。 同じ部分で悩んでいる方の参考になれば幸いです。”
  • 1