[B! *algorithm][gcloud][*infra] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとgcloudとinfraに関するsh19910711のブックマーク (10)

【強化学習】クラウドサービスを利用した分散強化学習（GKE/有料編） - Qiita
この記事は自作している強化学習フレームワークの解説記事です。この記事のコード場所：examples/kubernetes 続きです。前回作成したk8s環境をGKEに作成します。 ※有料サービスを取り扱うので利用する場合は自己責任でお願いします 1：【強化学習】クラウドサービスを利用した分散強化学習（無料編） 2：【強化学習】クラウドサービスを利用した分散強化学習（kubernetes編） 3：ここ全体イメージ(GKE) 今回作成する構成の全体イメージは以下です。前回との違いは Trainer と Redis を同じPodに入れています。 Trainer と Queue は遅延をなるべく減らしたかったので同じ物理サーバにアサインされるように同じPodにいれました。 Google Kubernetes Engine (GKE) GKEはGoogle Cloud Platform(GCP
sh19910711 2024/03/17
"AtariではGPUが40%ぐらい常に使われていましたが、1000円いかないのは意外でした / もっと簡単にGPUの高性能サーバが使えると思ったのですが、結構アサイン失敗 / 学習回数は少なめ + 今回20万回 + DQN論文は5000万フレーム" 2023

*algorithm

機械学習

*infra

gcloud
リンク
GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
1. はじめに 2. 並列学習環境を調べる並列学習方法を調べるネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築するコンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Docker を build 6. つまずいたポイント学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ
sh19910711 2022/10/02
GCPでやったのか👀 / "DeepSpeed が優秀過ぎてちょっと環境整えるだけ / GCP側もgVNICやFast Socket等のプリセット・環境が整備 / リージョンによっては A100 が無いリージョンがあったり、ゾーンによっても利用できる量が異なり"

*algorithm

機械学習

*infra

gcloud

gpu
リンク
Vertex AI AutoML で作成した機械学習モデルを Cloud Run にデプロイする - G-gen Tech Blog
G-gen の佐々木です。当記事では Google Cloud（旧称 GCP）の機械学習サービスである Vertex AI の AutoML で作成した機械学習モデルを、サーバーレスなコンテナ実行基盤である Cloud Run にデプロイしていきます。 Vertex AI および Cloud Run とは？ Vertex AI で作成したモデルのデプロイについて当記事で Cloud Run にデプロイするモデル Vertex AI Model Registry からモデルをエクスポートするローカルの Docker コンテナで予測を実行する Artifact Registry にモデルをアップロードする Cloud Run にモデルをデプロイする Cloud Run サービスに予測リクエストを送信する Vertex AI & Cloud Run Vertex AI および Cloud R
sh19910711 2022/08/27
"Google Cloud が提供する、 Vertex AI のモデルを実行するためのモデルサーバーのコンテナイメージを使用 / asia-docker.pkg.dev/vertex-ai/automl-tabular/prediction-server"

*algorithm

*infra

gcloud

container
リンク
13億パラメータの GPT モデルを GCP Cloud Run で動かす - Qiita
サーバレスプラットフォームである GCP Cloud Run で、Transf ormersのモデルを動かしてみました。 Transf ormersの汎用言語モデルを動作させるにはそれなりのスペックが必要になりますが、サーバレスと言うとメモリ等のリソースに厳しい制限があり大きなモデルを動かすようなことは難しい印象です。ですがCloud Runは結構メモリを積める1ので、実は普通に動かせてしまいます。環境 Docker version 20.10.11, build dea9396 Docker Compose version v2.2.1 Google Cloud SDK 383.0.1 Cloud Run 第1世代 GCPのサービス内容は2022年5月14日時点のものになっています。全体のソースコードは下記です。細かい依存関係などはこちらを参照してください。実装まずはCloud Ru
sh19910711 2022/05/15
Cloud Run + Streamlit + GPT / "大規模な言語モデルも簡単にサーバレスプラットフォーム上で動作させられるように / rinna/japanese-gpt-1b > cpu=4 + memory=11Gi / Transformersはオフラインモード + コンテナのビルド時にモデルをダウンロード"

*infra

gcloud

*algorithm

NLP
リンク
GKE Autopilotで作るMLリアルタイム推論基盤 | PLAID engineer blog
こんにちは！エンジニアの@tik-son, @ikemonnとMLエンジニアの@nichimuです。本日ついに待望のGKE Autopilotがリリースされましたね！この記事では、GKE Autopilot上で動いているリアルタイム推論基盤でなぜ我々がGKE Autopilotを利用することにしたのかについてお話しします。 MLリアルタイム推論基盤とはリアルタイム推論基盤とは、機械学習のモデルを使用して、リアルタイムに推論が行える基盤のことです。このリアルタイム推論基盤を用いることで、エンドユーザーがsession内で電話するかを予測するエンドユーザーが会員登録を行ったsession内で資料請求をするか予測するのように数秒-数分後にエンドユーザーがどんな状態であるかなどを予測することが実現可能になります。この基盤はまだ絶賛開発中で誰もが簡単に使える状態になっていないのですが
sh19910711 2021/04/24
"resourcesのlimitsとrequestsを記述するだけで、MLエンジニアが欲しいマシンリソースが簡単に用意でき、運用まで期待できる / リソースはCloudRunと異なり、動き続ける前提なのでPub/SubのPull型を簡単に扱うことができる"

*infra

gcloud

*algorithm

機械学習
リンク
Task Queue と Token Bucket アルゴリズム - addsict's blog
GAE の Task Queue (Push Queue) は Queue に入れられたタスクを全て一気に実行するのではなく、あらかじめ設定しておいた実行レートに従って、バックエンドの App Engine インスタンスにリクエストを投げてくれます。この実行レート制御のベースとなっているのが Token Bucket というアルゴリズムです。今回はその Token Bucket アルゴリズムと、Task Queue の設定値である bucket_size rate max_concurrent_requests にどのような関連性があるか、まとめてみたいと思います。 Token Bucket アルゴリズム Token Bucket はネットワークに流れるトラフィックを一定量以下になるように調整するアルゴリズムであり、Amazon EBS の IOPS のバースト制御や Amazon A
sh19910711 2021/01/02
"GAE の Task Queue (Push Queue) は Queue に入れられたタスクを全て一気に実行するのではなく、あらかじめ設定しておいた実行レートに従って、バックエンドの App Engine インスタンスにリクエストを投げてくれます"

*infra

*algorithm

gcloud
リンク
BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita
はじめに日本時間2020-06-17のリリースで、BigQuery MLにAutoML Tables、XGBoost、DNNが来ました。release-notes#June_16_2020 おさらいに、BigQuery MLで何ができるか再整理します。追記: 日本時間2020-07-02のリリースで、BigQuery MLにARIMAも来ましたね。日本時間2020-06-28のリリースノートでエラーになってたのですが、リリース日がしれっと修正されてました。release-notes#July_01_2020 BigQuery MLでできること概要 BigQueryでStandard SQLを使って、機械学習モデルを訓練、推論できます。データの移動を意識する必要がないため、開発スピードを向上と同時に、モデルの民主化を実現できます。例えば、以下のようにして、1時間ほど待てば、AutoM
sh19910711 2020/06/17
*algorithm

機械学習

*infra

gcloud

warehouse

tree
リンク
Cloud Auto MLの使用感 - wakame
Cloud AutoML は機械学習プロダクトのスイートです。AutoML を利用すると、機械学習の専門知識があまりない開発者でも Google の最先端の転移学習とニューラルアーキテクチャ検索技術を利用して、ビジネスニーズに合った高品質のモデルをトレーニングできます。
sh19910711 2019/05/19
"ノンプログラミングとか言ったけどデータセット大量になったら準備する部分はプログラミング必要だよね"

*algorithm

機械学習

*infra

gcloud
リンク
KaggleのHousePredictionを題材にしてAutoML Tablesがどんなもんか見てみる - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TL;DR AutoML TableがGoogle Cloud Next'19で発表されたよもう触れるみたいなので、KaggleのHousePricePredictionで試してみたよ、手軽だったよ一応LightGBMと比較してみたら、チューニングすれば良い成績を出せたよ前置き Google Cloud Next'19でAutoMl Tableが発表されましたね〜 automl-tables LPがいつもすこ早速使えるようなので(現在はβ版)、使ってみました。題材はKaggleから取ってきます。 Titanicでやろうとしてみた
sh19910711 2019/05/15
*infra

gcloud

*algorithm

機械学習

contest
リンク
DataflowとTFRecordでシームレスなMLパイプライン構築
最近では、機械学習を用いた事例が徐々に聞かれるようになってきました。しかし、MLエンジニアの方々からは「モデルを作ったはいいが、プロダクションに持っていくのは難しい」という声をよくいただきます。この要因は様々ですが、システムとして考慮しなければならない構成が多いというのが主だった要因になっています。モデルはシステム全体のごく一部（黒い四角部分）中でも特にMLエンジニアを悩ませるのは、データの前処理ではないでしょうか？機械学習では学習と推論時にデータを入力する必要がありますが、プロダクション時のデータは取得してそのままモデルに入力することはできません。なぜなら、データには欠損があるかもしれないし、画像ならモデルに合わせてサイズや階調を変える必要があるからです。さらに、これらのデータが大量にある場合は、１台のマシンでは処理しきれなくなるため、分散環境を構築する必要があります。そして、将来どこ
sh19910711 2018/11/27
Apache Beamでtfrecords出力できる

*data

*infra

gcloud

*algorithm

機械学習

*program

python
リンク
1