タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとgcloudと*infraに関するsh19910711のブックマーク (10)

  • 【強化学習】クラウドサービスを利用した分散強化学習(GKE/有料編) - Qiita

    この記事は自作している強化学習フレームワークの解説記事です。 この記事のコード場所:examples/kubernetes 続きです。 前回作成したk8s環境をGKEに作成します。 ※有料サービスを取り扱うので利用する場合は自己責任でお願いします 1:【強化学習】クラウドサービスを利用した分散強化学習(無料編) 2:【強化学習】クラウドサービスを利用した分散強化学習(kubernetes編) 3:ここ 全体イメージ(GKE) 今回作成する構成の全体イメージは以下です。 前回との違いは Trainer と Redis を同じPodに入れています。 Trainer と Queue は遅延をなるべく減らしたかったので同じ物理サーバにアサインされるように同じPodにいれました。 Google Kubernetes Engine (GKE) GKEはGoogle Cloud Platform(GCP

    【強化学習】クラウドサービスを利用した分散強化学習(GKE/有料編) - Qiita
    sh19910711
    sh19910711 2024/03/17
    "AtariではGPUが40%ぐらい常に使われていましたが、1000円いかないのは意外でした / もっと簡単にGPUの高性能サーバが使えると思ったのですが、結構アサイン失敗 / 学習回数は少なめ + 今回20万回 + DQN論文は5000万フレーム" 2023
  • GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

    1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Dockerbuild 6. つまずいたポイント 学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった 大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認 コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

    GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
    sh19910711
    sh19910711 2022/10/02
    GCPでやったのか👀 / "DeepSpeed が優秀過ぎてちょっと環境整えるだけ / GCP側もgVNICやFast Socket等のプリセット・環境が整備 / リージョンによっては A100 が無いリージョンがあったり、ゾーンによっても利用できる量が異なり"
  • Vertex AI AutoML で作成した機械学習モデルを Cloud Run にデプロイする - G-gen Tech Blog

    G-gen の佐々木です。当記事では Google Cloud(旧称 GCP)の機械学習サービスである Vertex AI の AutoML で作成した機械学習モデルを、サーバーレスなコンテナ実行基盤である Cloud Run にデプロイしていきます。 Vertex AI および Cloud Run とは? Vertex AI で作成したモデルのデプロイについて 当記事で Cloud Run にデプロイするモデル Vertex AI Model Registry からモデルをエクスポートする ローカルの Docker コンテナで予測を実行する Artifact Registry にモデルをアップロードする Cloud Run にモデルをデプロイする Cloud Run サービスに予測リクエストを送信する Vertex AI & Cloud Run Vertex AI および Cloud R

    Vertex AI AutoML で作成した機械学習モデルを Cloud Run にデプロイする - G-gen Tech Blog
    sh19910711
    sh19910711 2022/08/27
    "Google Cloud が提供する、 Vertex AI のモデルを実行するためのモデルサーバーのコンテナイメージを使用 / asia-docker.pkg.dev/vertex-ai/automl-tabular/prediction-server"
  • 13億パラメータの GPT モデルを GCP Cloud Run で動かす - Qiita

    サーバレスプラットフォームである GCP Cloud Run で、Transformersのモデルを動かしてみました。 Transformersの汎用言語モデルを動作させるにはそれなりのスペックが必要になりますが、サーバレスと言うとメモリ等のリソースに厳しい制限があり大きなモデルを動かすようなことは難しい印象です。ですがCloud Runは結構メモリを積める1ので、実は普通に動かせてしまいます。 環境 Docker version 20.10.11, build dea9396 Docker Compose version v2.2.1 Google Cloud SDK 383.0.1 Cloud Run 第1世代 GCPのサービス内容は2022年5月14日時点のものになっています。 全体のソースコードは下記です。細かい依存関係などはこちらを参照してください。 実装 まずはCloud Ru

    13億パラメータの GPT モデルを GCP Cloud Run で動かす - Qiita
    sh19910711
    sh19910711 2022/05/15
    Cloud Run + Streamlit + GPT / "大規模な言語モデルも簡単にサーバレスプラットフォーム上で動作させられるように / rinna/japanese-gpt-1b > cpu=4 + memory=11Gi / Transformersはオフラインモード + コンテナのビルド時にモデルをダウンロード"
  • GKE Autopilotで作るMLリアルタイム推論基盤 | PLAID engineer blog

    こんにちは!エンジニアの@tik-son, @ikemonnとMLエンジニアの@nichimuです。 日ついに待望のGKE Autopilotがリリースされましたね! この記事では、GKE Autopilot上で動いているリアルタイム推論基盤でなぜ我々がGKE Autopilotを利用することにしたのかについてお話しします。 MLリアルタイム推論基盤とは リアルタイム推論基盤とは、機械学習のモデルを使用して、リアルタイムに推論が行える基盤のことです。 このリアルタイム推論基盤を用いることで、 エンドユーザーがsession内で電話するかを予測する エンドユーザーが会員登録を行ったsession内で資料請求をするか予測する のように数秒-数分後にエンドユーザーがどんな状態であるかなどを予測することが実現可能になります。 この基盤はまだ絶賛開発中で誰もが簡単に使える状態になっていないのですが

    GKE Autopilotで作るMLリアルタイム推論基盤 | PLAID engineer blog
    sh19910711
    sh19910711 2021/04/24
    "resourcesのlimitsとrequestsを記述するだけで、MLエンジニアが欲しいマシンリソースが簡単に用意でき、運用まで期待できる / リソースはCloudRunと異なり、動き続ける前提なのでPub/SubのPull型を簡単に扱うことができる"
  • Task Queue と Token Bucket アルゴリズム - addsict's blog

    GAE の Task Queue (Push Queue) は Queue に入れられたタスクを全て一気に実行するのではなく、あらかじめ設定しておいた実行レートに従って、バックエンドの App Engine インスタンスにリクエストを投げてくれます。この実行レート制御のベースとなっているのが Token Bucket というアルゴリズムです。 今回はその Token Bucket アルゴリズムと、Task Queue の設定値である bucket_size rate max_concurrent_requests にどのような関連性があるか、まとめてみたいと思います。 Token Bucket アルゴリズム Token Bucket はネットワークに流れるトラフィックを一定量以下になるように調整するアルゴリズムであり、Amazon EBS の IOPS のバースト制御 や Amazon A

    Task Queue と Token Bucket アルゴリズム - addsict's blog
    sh19910711
    sh19910711 2021/01/02
    "GAE の Task Queue (Push Queue) は Queue に入れられたタスクを全て一気に実行するのではなく、あらかじめ設定しておいた実行レートに従って、バックエンドの App Engine インスタンスにリクエストを投げてくれます"
  • BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita

    はじめに 日時間2020-06-17のリリースで、BigQuery MLにAutoML Tables、XGBoost、DNNが来ました。release-notes#June_16_2020 おさらいに、BigQuery MLで何ができるか再整理します。 追記: 日時間2020-07-02のリリースで、BigQuery MLにARIMAも来ましたね。日時間2020-06-28のリリースノートでエラーになってたのですが、リリース日がしれっと修正されてました。release-notes#July_01_2020 BigQuery MLでできること概要 BigQueryでStandard SQLを使って、機械学習モデルを訓練、推論できます。 データの移動を意識する必要がないため、開発スピードを向上と同時に、モデルの民主化を実現できます。 例えば、以下のようにして、1時間ほど待てば、AutoM

    BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita
  • Cloud Auto MLの使用感 - wakame

    Cloud AutoML は機械学習プロダクトのスイートです。AutoML を利用すると、機械学習の専門知識があまりない開発者でも Google の最先端の転移学習とニューラル アーキテクチャ検索技術を利用して、ビジネスニーズに合った高品質のモデルをトレーニングできます。

    Cloud Auto MLの使用感 - wakame
    sh19910711
    sh19910711 2019/05/19
    "ノンプログラミングとか言ったけどデータセット大量になったら準備する部分はプログラミング必要だよね"
  • KaggleのHousePredictionを題材にしてAutoML Tablesがどんなもんか見てみる - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TL;DR AutoML TableがGoogle Cloud Next'19で発表されたよ もう触れるみたいなので、KaggleのHousePricePredictionで試してみたよ、手軽だったよ 一応LightGBMと比較してみたら、チューニングすれば良い成績を出せたよ 前置き Google Cloud Next'19でAutoMl Tableが発表されましたね〜 automl-tables LPがいつもすこ 早速使えるようなので(現在はβ版)、使ってみました。題材はKaggleから取ってきます。 Titanicでやろうとしてみた

    KaggleのHousePredictionを題材にしてAutoML Tablesがどんなもんか見てみる - Qiita
  • DataflowとTFRecordでシームレスなMLパイプライン構築

    最近では、機械学習を用いた事例が徐々に聞かれるようになってきました。しかし、MLエンジニアの方々からは「モデルを作ったはいいが、プロダクションに持っていくのは難しい」という声をよくいただきます。この要因は様々ですが、システムとして考慮しなければならない構成が多いというのが主だった要因になっています。 モデルはシステム全体のごく一部(黒い四角部分)中でも特にMLエンジニアを悩ませるのは、データの前処理ではないでしょうか?機械学習では学習と推論時にデータを入力する必要がありますが、プロダクション時のデータは取得してそのままモデルに入力することはできません。なぜなら、データには欠損があるかもしれないし、画像ならモデルに合わせてサイズや階調を変える必要があるからです。さらに、これらのデータが大量にある場合は、1台のマシンでは処理しきれなくなるため、分散環境を構築する必要があります。そして、将来どこ

    DataflowとTFRecordでシームレスなMLパイプライン構築
    sh19910711
    sh19910711 2018/11/27
    Apache Beamでtfrecords出力できる
  • 1