[B! gpu] [2ページ] xiangzeのブックマーク

How to accelerate AI applications on RDNA 3 using WMMA

xiangze 2023/02/14

リンク

DockerでのディープラーニングGPU学習環境構築方法 - Qiita

DockerでGPU学習環境構築背景ディープラーニングでローカルPCのGPUを使った学習環境を構築した経験のある人は、一度はNVIDIAのドライバやCUDA周りでハマった経験があるのではないでしょうか？そんなバッドノウハウ（怪文章？）をまとめたQiita記事（TensorFlowでGPU学習させるためにCUDA周りではまったときの対処法）に、なんとNVIDIAの中の人(@ksasaki さん）から「Dockerを使えば…人類は幸せになれる（超意訳）」とのコメントをいただきました！喜び勇んで、NVIDIAのドライバをアップデートしたところ、そこには文鎮と化した起動しないLinuxマシンが…からあげのNVIDIAとの戦いは始まったばかりだ！（戦ってません） DockerでGPU学習環境構築するメリットうまく構築できればという前提で、以下のようなメリットがあります。様々なフレームワーク

xiangze 2023/01/06

リンク

Dockerで、GPU対応なコンテナ環境を整備する - Qiita

Docker 19.03リリースにて、DockerでGPU対応コンテナ環境が作成できるようになったようです。そこで、実際に、Dockerで、GPU対応なコンテナが作成できるところまで確認してみました。 "Docker 19.03新機能 (root権限不要化、GPU対応強化、CLIプラグイン…)"より、引用 GPU対応強化従来のDockerでNVIDIAのGPUを用いるには、 docker コマンドの代わりに nvidia-docker コマンドを用いたり、OCIランタイムとして --runtime=nvidia (nvidia-docker2) を指定したりする必要がありました。 Docker 19.03では、Docker自体にGPU連携機能 docker run --gpus …が組み込まれました。 $ docker run --gpus all $ docker run --gpu

xiangze 2022/12/19

リンク

Vast.ai | Console

xiangze 2022/11/18

リンク

GPU/CUDAとPyTorch周りの様々なバージョンを理解する - yag's blog

前置き GPUを利用したディープラーニングの環境構築において、GPUのドライバやCUDAの諸々の設定は初学者が誰しも嵌る最初の難関と言える。私自身これまではネットの情報をあれこれ試して上手く行けばOKで済ませていたが、この辺で今一度正しく理解しておきたい。そこでこの記事を通して、GPU/CUDAとPyTorchの環境構築で遭遇する様々なバージョンの識別とその意味を理解することを目的とする。なお、細かなインストール方法やエラー対応などは本記事では扱わない。また、グラフィックボード/グラフィックカードと呼ぶべきところをGPUと表現している点もご容赦いただきたい。 [注意] この記事はGPU/CUDA素人が書いているので、細かな用語や名称の間違いが多分に含まれていると思われる。間違っていたらごめんなさい。また、事例として紹介しているバージョン番号は当然ながら時が経つにつれ古くなるので注意。 GP

xiangze 2022/11/18

リンク

小ネタ：Pytorch で Automatic Mixed Precision (AMP) の ON/OFF をするときの話 - 俵言

最近気付いたのでメモ。長くなってしまったので、結論だけ見たい場合はまとめまで読み飛ばしてください。まえおき NN を学習する際の GPU メモリの使用量軽減や学習速度の向上手段として混合精度学習(Mixed Precision Training) は欠かせません。pytorch では torch.cuda.amp モジュールを用いることでとてもお手軽に使うことが可能です。以下は official docs に Typical Mixed Precision Training と題して載っている例ですが、 model の forward と loss の計算を amp.autocast の with 文中で行い、loss の backward と optimizer の step に amp.GradScaler を介在させています*1。 # Creates model and opt

xiangze 2022/09/05

リンク

[GPUを簡単に高速化・省メモリ化] NVIDIAのapex.ampがPyTorchに統合されたようです - Qiita

対象とする読者 PyTorch 1.6を利用できる環境にあってVolta以降のGPUの計算を簡単に高速化・省メモリ化したい方はじめに Volta以降のGPUではfloat16/float32混合精度演算により計算の高速化・メモリの節約を行うTensorCoreが搭載されています。しかし、特に明示的にプログラムを書かない限り?はfloat32による計算が行われ、TensorCoreを有効活用することはできません。かといって単に全てfloat16化して計算を行うだけだと、表現力が少なかったり、勾配でアンダーフローしてしまったりとモデルの性能が維持できません。そこで、Automatic Mixed Precision (amp)機能によってfloat32の保持や勾配の値のスケーリング等を自動的に行うことでTensorCoreを有効活用し、GPU計算の高速化・省メモリ化が実現されます。もう

xiangze 2022/09/04

gpu
pytorch

リンク

Tuning High Performance Convolution on NVIDIA GPUs — tvm 0.17.dev0 documentation

xiangze 2022/08/30

リンク

https://tigress-web.princeton.edu/~jdh4/PyTorchPerformanceTuningGuide_GTC2021.pdf

xiangze 2021/10/06

pytorch
gpu

リンク

GPU向けコンパイラの最適化の紹介と論文のサーベイ - Jicchoの箱

この記事では，私の研究分野であるGPU向けコンパイラの最適化の紹介と論文のサーベイを行う．以下，随時更新．分岐発散（Branch Divergence）分岐発散とは Independent Thread Scheduling 分岐発散に対する最適化 Software based approaches Hardware based approaches その他サーベイ論文カーネル融合（Kernel Fusion） Kernel Fusionとは垂直融合（vertical fusion）水平融合（horizontal fusion） Inner Thread Block Inter Thread Block カーネル融合に関する論文その他のGPU関連の論文 Dimensionally redundant instruction elimination Others 分岐発散

xiangze 2021/05/14

gpu
compiler

リンク

GPU Benchmarks for Deep Learning | Lambda

GPU Benchmark Methodology To measure the relative effectiveness of GPUs when it comes to training neural networks we’ve chosen training throughput as the measuring stick. Training throughput measures the number of samples (e.g. tokens, images, etc...) processed per second by the GPU. Using throughput instead of Floating Point Operations per Second (FLOPS) brings GPU performance into the realm of t

xiangze 2021/02/08

リンク

https://crates.io/crates/accel/

xiangze 2020/07/24

gpu
rust

リンク

Why the GPGPU is Less Efficient than the TPU for DNNs

xiangze 2019/10/03

リンク

CuPy カーネル融合の拡張 - Preferred Networks Research & Development

本記事は、2019年インターンシップとして勤務した徐子健さんによる寄稿です。 2019年度夏季インターンのJoeです。この度インターンプロジェクトとしてCuPyのカーネル融合の拡張に取り組み、既存のカーネル融合の適用範囲を大幅に拡張しました。さらにその応用として、ResNet50のバッチ正規化においてCPU実行時間を30%ほど、GPU実行時間を(入力サイズに大きく依存しますがおおよそ)70%ほど削減することに成功しましたので、その取り組みをご紹介します。背景 CuPyはNumPyと同じAPIを提供するPythonのライブラリで、CUDAを用いて演算を高速に行います。具体的には、行列・ベクトルの要素ごとの演算や、リダクションと呼ばれる、演算によって配列の次元が落ちる演算(たとえばcupy.sum)など、GPUが得意とする計算を高速に行うことができます。さて、CuPyのGPU演算は強力で

xiangze 2019/09/29

gpu
cuda

リンク

google/jax: GPU- and TPU-backed NumPy with differentiation and JIT compilation.

JAX is a Python library for accelerator-oriented array computation and program transf ormation, designed for high-performance numerical computing and large-scale machine learning. With its updated version of Autograd, JAX can automatically differentiate native Python and NumPy functions. It can differentiate through loops, branches, recursion, and closures, and it can take derivatives of derivative

xiangze 2019/01/15

リンク

https://www.hotchips.org/hc30/1conf/1.12_Nvidia_XavierHotchips2018Final_814.pdf

xiangze 2018/12/14

nvidia
gpu

リンク

NumPyの歴史とPythonの並行処理(PyDataTokyo Conference) - HackMD

# NumPyの歴史とPythonの並行処理(PyDataTokyo Conference) https://pydatatokyo.connpass.com/event/87511/ >Sess

xiangze 2018/10/20

リンク

Hastega: Elixirプログラミングにおける超並列化を実現するためのGPGPU活用手法

xiangze 2018/09/30

gpu

リンク

10万円で自宅にDeep Learning用マシンを作った際にはまったこと - algonote

1年半前にBTOパソコンのGPU入れ替えた際のメモ。中古のBTO PCのGPUを入れ替えるという選択肢 Deep Learningの学習をする際にCPUでやるのは速度の面で現実的でなく、デファクトスタンダードはNVIDIAのGPUのマシーンを使うこと。最近では随分GPUのクラウドインスタンスも増えたが、GPUは本質的に発熱量が多く、データセンターで１点管理するには不向きで、長時間学習させているとコストがかさみがち。そう行った際に、自宅にGPU環境があるとクラウドより割安になる場合もあるが、組み立て済みのマシンは初期費用20万円以上するのでまあお高い。自作するという選択肢もあるが、パーツで買うと量産効果きかないのか割高になる場合もある他、Macに慣れたゆるふわ自作PC勢には0->1組み立てはなかなか厳しい。マシンに対する見解は色々あり、ググると 1) クラウド派 2)組み立て済み購入

xiangze 2018/09/24

リンク

High-Performance GPU Computing in the Julia Programming Language | NVIDIA Technical Blog

High-Performance GPU Computing in the Julia Programming Language Julia is a high-level programming language for mathematical computing that is as easy to use as Python, but as fast as C. The language has been created with performance in mind, and combines careful language design with a sophisticated LLVM-based compiler [Bezanson et al. 2017]. Julia is already well regarded for programming multicor

xiangze 2018/08/23

gpu
julia

リンク

はてなブックマーク

タグ

関連タグで絞り込む (91)

gpuに関するxiangzeのブックマーク (157)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス