タグ

*infraとgpuに関するsh19910711のブックマーク (9)

  • ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

    はじめに こんにちは。ELYZA のML Engineeringチームの堀江 (@eemon18)、村山 (@zakktakk)です。 記事では、弊社が2024/03/11にリリースした下記のデモについて、どのように70Bという巨大なモデルをホスティングしているのかを解説します。 まだデモを直接触れたことがないという方はぜひ一度以下のURLからアクセスし、140GBを超えるバイナリファイルからなるモデルがどのくらい高速に動作するのかを確かめてみてください。 記事ではまず弊社推論アーキテクチャについて説明し、その後70Bを運用する際の技術選定や高速化の工夫について解説します。 推論アーキテクチャ 弊社のLLMアプリケーションのアーキテクチャは、平易に表すと以下の図のように構成されています。LLMの推論処理には時間がかかるため、アプリケーションと推論インスタンスはメッセージキューを介して非

    ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤
    sh19910711
    sh19910711 2024/05/31
    "機密性の高いデータの暗号化・復号化など推論処理以外に実装が必要な部分が多く / A100, A10Gインスタンスは特に日本リージョンで確保が難しい / 現実的に運用可能なラインとしてA10G, L4, そしてinf2インスタンスに絞り"
  • Vertex AI と NeMo Framework で大規模言語モデル(LLM)のマルチノード分散学習を体験する

    はじめに 2024年4月3日に、下記の Google Cloud 公式ブログ記事が公開されました。 GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速 この記事で紹介されているチュートリアル nvidia-nemo-on-gke に従うと、Google Cloud で次の処理が体験できます。 NVIDIA H100 Tensor Core GPU を接続したノードによる Google Kubernetes Engine(GKE)のクラスターを構築する NVIDIA NeMo Framework のサンプルコードを利用して、LLM(Megatron GPT)の事前学習を実行する とはいえ・・・、「わざわざ GKE クラスターを構築するのは面倒なので、Vetrex AI のマネージドサービスだけで LLM の学習処理を体験してみたい!」という方もいるかもしれま

    Vertex AI と NeMo Framework で大規模言語モデル(LLM)のマルチノード分散学習を体験する
    sh19910711
    sh19910711 2024/05/18
    "NVIDIA NeMo Framework のサンプルコードを利用して、LLM(Megatron GPT)の事前学習 / NeMo Framework: ハイパーパラメーターの設定、PyTorch Lightning を用いたチェックポイントの生成、TensorBoard 用のログの出力などをまとめて管理"
  • Microk8sのPodでGPUを使う(2023年7月版) - 仮想化通信

    今回のネタは以前同じような記事を書いたので、そのアップデート版です。 次の記事も併せてご覧ください。2019年ごろの記事です。今もだいたい通じます。 tech.virtualtech.jp さて、題に入る前にそれぞれざっくり説明します。 MicroK8sとは MicroK8sとはUbuntuを開発するCanonicalが開発しているKubernetesクラスターを簡単にセットアップできるツールです。次が公式サイトで、一般的なx86PCやサーバーからRaspberry PiのようなARMボードなどでKubernetesクラスターを作成できます。 microk8s.io [追記] MicroK8s自身は色々なLinux ディストリビューションで動作します。「Users by distribution」を見ると、Ubuntuで動かす方が多いですね。ただ今回は特別なハードウェアを使うため、Ubu

    Microk8sのPodでGPUを使う(2023年7月版) - 仮想化通信
    sh19910711
    sh19910711 2023/07/12
    "Kubernetes: 現在はNVIDIAのGPUの他、AMDやIntelのGPUの一部もサポート / MicroK8s: gpuアドオンを使うとNVIDIA GPUをKubernetesで使うために必要なソフトウェアが提供 + NVIDIA GPU Operatorとnvidia-container-runtimeの導入が自動的に行われます"
  • Kubernetes運用管理のすゝめ

    はじめに はじめまして、データ推進室データテクノロジーラボ部アーキグループ(以下アーキG)所属の舛谷(ますたに)です。これまでアーキGはAI機械学習アプリケーションを稼働する環境をKubernetesで構築・運用・管理してきました。 Kubernetesクラスターを運用するにあたって、リソース・コストの最適化はみなさんも頭を悩ませることが多いと思います。アーキGも同様に、稼働するアプリケーションが増えていく中で効率的かつ安定的な環境を目指して改善を繰り返してきました。 今回は我々がこれまで取り組んできた改善について、特にリソースの効率化を実現するために行った施策についてご紹介させていただきます。現在アーキGがメインで利用してるマネージドサービスがAlibaba Cloud Continer Service for Kubernetes(以下ACK)であるため、Alibaba Cloudで

    Kubernetes運用管理のすゝめ
    sh19910711
    sh19910711 2023/03/14
    "cGPU: AlibabaCloudが提供する GPU仮想化・共有技術 + 1つのGPUを複数コンテナから利用する際のスケジューリング・分割ができる / GKEであれば、 タイムシェアリングGPU などで実現できるのかも"
  • NVIDIAのGPUリソース分割技術

    こんにちは、NTT研究所の山口です。 前回の記事でA100のMIGについて触れていますが、MIGを活用する際のモチベーションとして、1つのGPU上で効率的に複数プロセスを実行したり、複数ユーザで利用できるようにしたいという目的が挙げられるかと思います。記事では1つのGPUリソースを効率的に利用するための技術として、Multi Process Service(MPS), Virtual GPU(vGPU), Multi Instance GPU(MIG)という三つのNVIDIA社の技術についてまとめます。 MPS: GPU上で並列処理を効率的に行うことができるvGPU: GPUを仮想化してVMに対してリソースを割り当てることが可能。分割されたGPUは、VM内で個々にGPUとして認識可能であるため複数ユーザに対して提供しやすいMIG: 最新のアーキテクチャであるAmpereでしか利用できない

    NVIDIAのGPUリソース分割技術
    sh19910711
    sh19910711 2023/03/07
    2020 / "MPS: context switchが多発してオーバーヘッドが発生 / MIG: Ampereアーキテクチャで導入 + 1つのGPUを最大7つのPartitionに分割 + 1つのGPUの上で学習処理と推論処理をリソースを分離しながら実行するといった使い方も"
  • 第642回 仮想マシン上のmicrok8sからGPUを利用する | gihyo.jp

    第641回では「LXDとmicrok8sでシングルサーバーをKubernetesクラスターにする」と題して、より高機能になったmicrok8sについて紹介しました。microk8sで構築したKubernetesがあれば、気軽にたくさんのCPUコアを使ってさまざまなワークロードを動かし、部屋を暖められます。でも、待ってください。そのサーバーにはもっと便利な熱源がありませんか? そうGPUですね。格的に寒くなる前に、Kubernetes環境からもGPUを使えるようにしましょう。 ホスト側でGPUパススルーの準備 第641回ではLXDの仮想マシンインスタンスの上にmicrok8sをインストールしました。つまりホストマシンのGPUを使うには、LXDの仮想マシンの中からGPUにアクセスできなくてはなりません[1]⁠。コンテナの場合、第532回の「LXDのコンテナからGPUを利用する」などで手順を紹

    第642回 仮想マシン上のmicrok8sからGPUを利用する | gihyo.jp
    sh19910711
    sh19910711 2023/03/07
    2020 / "microk8sで構築したKubernetesがあれば、気軽にたくさんのCPUコアを使ってさまざまなワークロードを動かし、部屋を暖められます / そのサーバーにはもっと便利な熱源がありませんか?そうGPUですね"
  • nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER

    自宅にあるオンプレマシンでグラフィックカードを GPGPU の用途に使用していると、消費電力や発熱は切実な問題になりうる。 特に昨今は電気代の値上がりも著しいし、発熱は製品寿命の短縮や夏だと室温の上昇につながる。 そこで、今回は Linux の環境で nvidia-smi(1) を使って NVIDIA の GPU にパワーリミットを設定することで消費電力や発熱の低減を目指してみる。 使った環境は次のとおり。 Ubuntu 20.04 LTS のマシンに、Docker と nvidia-container-toolkit がインストールしてある。 $ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.4 LTS Release: 20.04 Codenam

    nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす - CUBE SUGAR CONTAINER
    sh19910711
    sh19910711 2023/03/07
    2022 / "一般に半導体のワットパフォーマンスはリニアな関係ではなく入力する電力が大きくなるほどパフォーマンス向上の効率が悪くなると言われる / 電力量が減れば発熱も小さくなるため暖房器具としての性能も低下"
  • 【ABCI】産総研スパコンに圧倒的入門するためのページ〜VSCode・Anacondaによる計算環境整備 - Qiita

    こんにちは、@aya_seです。大学で自然言語処理の研究をしています。 今回は、産総研AI橋渡しクラウド(ABCI)で最低限のジョブが投げられるようにするまでの作業をまとめました。もともとは研究室内Wikiに書いていたものですが、せっかくなので公開してみます。また、ABCIの事例ではありますが、他のスパコンでも共通する部分があるかと思うので、参考になれば幸いです。 ちなみに、今回の記事の大部分の内容はABCIのユーザーガイドに書いてあったので、読むとよさそうです。 想定する読者層 研究室に配属されたばかりで、これからスパコン(ABCI)を使おうと考えている PythonPyTorchを利用したML系のジョブを投げたい スパコン(ABCI)におけるジョブの概念や投げ方について知りたい ABCIにRemote SSH接続する まずはABCIのアカウントIDを把握する。 ABCI利用者ポータル

    【ABCI】産総研スパコンに圧倒的入門するためのページ〜VSCode・Anacondaによる計算環境整備 - Qiita
    sh19910711
    sh19910711 2023/03/07
    2022 / "ABCI: 2種類のジョブの投げ方がある / インタラクティブジョブで実際に行う実験のプログラムがうまく動きそうかの様子を見て、うまくいきそうな雰囲気であればバッチジョブで再度実行するというのが経済的"
  • GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

    1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Dockerbuild 6. つまずいたポイント 学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった 大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認 コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

    GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
    sh19910711
    sh19910711 2022/10/02
    GCPでやったのか👀 / "DeepSpeed が優秀過ぎてちょっと環境整えるだけ / GCP側もgVNICやFast Socket等のプリセット・環境が整備 / リージョンによっては A100 が無いリージョンがあったり、ゾーンによっても利用できる量が異なり"
  • 1