dannのブックマーク / 2023年5月17日 - はてなブックマーク

Optimize a PyTorch model - Container Service for Kubernetes - Alibaba Cloud Documentation Center

dann 2023/05/17

triton

リンク

GPUプラットフォームにおけるAIモデルの開発と推論 - AIモデル開発と推論サービスの実現 | ネットワンシステムズ

ライター：奈良　昌紀通信事業者のデータセンターにおいてネットワーク・サーバー運用を経験した後、ネットワンシステムズに入社。帯域制御やWAN高速化製品担当を経て、2008年から仮想化関連製品を担当。現在は主にクラウド、仮想インフラの管理、自動化、ネットワーク仮想化を担当。はじめにこちらのBlog記事ではコンテナ環境でGPUを活用するためのNVIDIA AI Enterprise + VMware vSphere® with VMware Tanzu® をご紹介しました。今回は2回の記事に分けて、この環境を利用して自然言語処理モデルであるBERTをチューニングし、開発したAIモデルをTriton Inference ServerによりKubernetes上でコンテナとして実行し、Kubernetesのオートスケール機能によってスケールアウト・スケールインを実現する方法をご紹介します。 G

dann 2023/05/17

triton

リンク

server/docs/customization_guide/compose.md at main · triton-inference-server/server

dann 2023/05/17

triton

リンク

TensorFlow、機械学習の開発を加速するオープンソースツールが拡充〜Google I/O 2023から - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Image credit: Google 5月10日の Google I/O における大きな人工知能（AI）に関するニュースは、大規模言語モデル「PaLM 2」の発表だが、このイベントにおけるAIニュースはそれだけではない。 Google は、オープンソースの機械学習（ML）技術のアップデートと、成長中の TensorFlow エコシステムの機能強化を相次いで発表した。TensorFlow は、Google が主導するオープンソース技術の取り組みで、開発者がモデルを構築して訓練するのに役立つ ML ツールを提供している。 Google は、Google I/O で新技術「DTensor」を発表した。この技術は、MLトレーニングに新しい並列化技術をもたらし、モデルトレーニングとスケーリング効率の向上を支援するものだ。また、TF Quantization API のプレビューリリースもあり

dann 2023/05/17

tensorflow

リンク

Single-node ML Runtime Foundation | Lei.Chat()

dann 2023/05/17

mlir

リンク

GitHub - triton-inference-server/pytriton: PyTriton is a Flask/FastAPI-like interface that simplifies Triton's deployment in Python environments.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

dann 2023/05/17

リンク

Python: Streamlit を使って手早く WebUI 付きのプロトタイプを作る - CUBE SUGAR CONTAINER

Streamlit は、ざっくり言うと主にデータサイエンス領域において WebUI 付きのアプリケーションを手早く作るためのソフトウェア。使い所としては、ひとまず動くものを見せたかったり、少人数で試しに使うレベルのプロトタイプを作るフェーズに適していると思う。たとえば、Jupyter で提供すると複数人で使うのに難があるし、かといって Flask や Django を使って真面目に作るほどではない、くらいのとき。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 11.3.1 BuildVersion: 20E241 $ python -V Python 3.8.9 もくじもくじ下準備基本的な使い方基本的な書式プレースホルダープログレスバーを使った処理の進捗の可視化基本的な可視化組み込みのグラフ描画機能

dann 2023/05/17

streamit

リンク

ビジュアルコンピューティング向け A40 GPU

NVIDIA A40 GPU は、デザイン、クリエイティブ、科学における現代の課題に対処するためのパワフルな計算処理能力、パワフルな AI 活用によりこのクラスで最高のプロフェッショナルグラフィックスを兼ね備え、データセンターのパフォーマンスおよびマルチワークロード機能としては革新的な飛躍を遂げています。次世代の仮想ワークステーションとサーバーベースワークロードを推進する NVIDIA A40 は、場所と時間を問わず、レイトレーシングレンダリング、シミュレーション、仮想プロダクションなどの最先端の機能をプロフェッショナルに提供します。

dann 2023/05/17

nvidia
gpu

リンク

Deploy Your Local GPT Server With Triton

dann 2023/05/17

リンク

Accelerated Inference for Large Transformer Models Using NVIDIA Triton Inference Server | NVIDIA Technical Blog

dann 2023/05/17

リンク

fastertransformer_backend/docs/gpt_guide.md at main · triton-inference-server/fastertransformer_backend

dann 2023/05/17

triton

リンク

server/docs/getting_started/quickstart.md at main · triton-inference-server/server

dann 2023/05/17

triton

リンク

Surpassing NVIDIA FasterTransformer’s Inference Performance by 50%, Open Source Project Powers into the Future of Large Models Industrialization

dann 2023/05/17

リンク

docker run

Reference documentation CLI reference docker (base command)docker build docker builder docker builderdocker builder build docker builder prune docker buildx docker buildxdocker buildx bakedocker buildx build docker buildx createdocker buildx debugdocker buildx debug build docker buildx dudocker buildx imagetoolsdocker buildx imagetools createdocker buildx imagetools inspectdocker buildx inspectdocker

dann 2023/05/17

リンク

GPU に推論を: Triton Inference Server でかんたんデプロイ

dann 2023/05/17

triton

リンク

はじめての自然言語処理 Transformer 系モデルの推論高速化の検証 | オブジェクトの広場

今回は Transf ormer 系のモデル、具体的には BERT, T5, GPT の推論を高速化してみます。高速化手法として FasterTransf ormer, Torch-TensorRT, AWS Neuron を用い、素の transfomers に比べ、どの程度速くなるか（ならないか）、利点・欠点を確認してみましょう。 1. はじめに今回は Transf ormer 系のモデル、具体的には BERT, T5, GPT の推論を様々な技術を使って高速化してみます。高速化の元ネタは Hugging Face の transf ormers1 縛りとして、素の transf ormers で推論する場合に比べ、どの程度速くなるか（ならないか）見てみましょう。推論を高速化する技術としては FasterTransfomer2, Torch-TensorRT3, AWS Neuron(

dann 2023/05/17

リンク

GitHub - triton-inference-server/fastertransformer_backend

dann 2023/05/17

triton

リンク

ヘルスチェック

F5のサイトサポートポータル F5製品およびサービスに関するセルフサービスヘルプの記事 DevCentral 弊社主催のコミュニティでつながり、学ぶ My F5 サブスクリプションおよび登録キーの管理 Partner Central F5パートナーのためのリソースおよびサポートポータル LearnF5 Learn to use F5 products F5へのお問い合わせ F5販売担当部へのお問い合わせ詳しくは、F5の営業担当社にお問い合わせください F5サポートへのお問い合わせお近くのサポート担当者にお問い合わせくださいプロフェッショナルサービスへのお問い合わせ F5ソリューションを最適化するためのサポートを受ける無料トライアル複数の環境にわたりアプリケーションの安全性、速度、信頼性を確保するこれらの製品を、無料でお試しください。 F5 Distributed Clou

dann 2023/05/17

bigip

リンク

BIG-IP Active Standby構成のチューニング

dann 2023/05/17

bigip

リンク

nginx の consistent hash は本当に consistent なのか - Neinvalli

nginx の upstream, consistent hash の挙動について nginx でリバースプロキシを作る際に、同じ URL へのアクセスは同じサーバーに流したい場合があります。バックエンド側でコンテンツのキャッシュをしている場合等です。 nginx で以下のように設定した場合、サーバーの追加や削除で選ばれる対象がどのように変化するのか調査しました。 upstream myapp1 { hash $host$uri consistent; server 127.0.0.1:10080 max_fails=100 fail_timeout=10; server 127.0.0.2:10080 max_fails=100 fail_timeout=10; server 127.0.0.3:10080 max_fails=100 fail_timeout=10; server 1

dann 2023/05/17

リンク

upstream cosistent ハッシュ | NGINX 日本語訳

dann 2023/05/17

リンク

グランブルーファンタジーを支えるインフラの技術

2017/02/16 Developers Summit 2017

dann 2023/05/17

リンク

秒間100万クエリ・8万リクエストの「グラブル」安定稼働を支える、Cygames「3つの取り組み」【デブサミ2017】

リアルタイム通信の高速化とタグシステムによる運用効率化続いて佐藤氏はリアルタイム通信高速化の取り組みを紹介。チャットやマルチバトルのパラメータ反映などで利用されるのが双方向リアルタイム通信だ。CygamesではWebSocketプロトコルを使って双方向リアルタイム通信を実装。サーバはNode.jsで、WebSocket通信とデータ送受信を実装している。リアルタイム通信の基本的な仕組みとして、クライアントはRoomという単位でグループ化され、同じRoomIDを持ったクライアント同士でメッセージを共有する。大規模環境の場合はサーバを分散する必要があり、一般的によく使われているのがPub/Subメッセージングモデルだ。グラブルでも当初はRedisのPub/Sub機能を使って、このモデルを採用していたという。しかし、アクセス数の増加とともにRedis Pub/Sub（メッセージキュー）がボトル

dann 2023/05/17

リンク

はてなブックマーク

タグ

2023年5月17日のブックマーク (23件)

Optimize a PyTorch model - Container Service for Kubernetes - Alibaba Cloud Documentation Center

GPUプラットフォームにおけるAIモデルの開発と推論 - AIモデル開発と推論サービスの実現 | ネットワンシステムズ

server/docs/customization_guide/compose.md at main · triton-inference-server/server

TensorFlow、機械学習の開発を加速するオープンソースツールが拡充〜Google I/O 2023から - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Single-node ML Runtime Foundation | Lei.Chat()

GitHub - triton-inference-server/pytriton: PyTriton is a Flask/FastAPI-like interface that simplifies Triton's deployment in Python environments.

Python: Streamlit を使って手早く WebUI 付きのプロトタイプを作る - CUBE SUGAR CONTAINER

ビジュアルコンピューティング向け A40 GPU

Deploy Your Local GPT Server With Triton

Accelerated Inference for Large Transformer Models Using NVIDIA Triton Inference Server | NVIDIA Technical Blog

fastertransformer_backend/docs/gpt_guide.md at main · triton-inference-server/fastertransformer_backend

server/docs/getting_started/quickstart.md at main · triton-inference-server/server

Surpassing NVIDIA FasterTransformer’s Inference Performance by 50%, Open Source Project Powers into the Future of Large Models Industrialization

docker run

GPU に推論を: Triton Inference Server でかんたんデプロイ

はじめての自然言語処理 Transformer 系モデルの推論高速化の検証 | オブジェクトの広場

GitHub - triton-inference-server/fastertransformer_backend

ヘルスチェック

BIG-IP Active Standby構成のチューニング

nginx の consistent hash は本当に consistent なのか - Neinvalli

upstream cosistent ハッシュ | NGINX 日本語訳

グランブルーファンタジーを支えるインフラの技術

秒間100万クエリ・8万リクエストの「グラブル」安定稼働を支える、Cygames「3つの取り組み」【デブサミ2017】

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス