[B! cuda] xiangzeのブックマーク

Rust でML に挑戦してみた | 豆蔵デベロッパーサイト

こんにちは。この記事が初投稿となります、松本です。よろしくお願いします。さて、C/C++ に代わる言語として注目を浴びている Rust ですが、ML や NN の記事量は圧倒的に Python で、Rust で書いた例はググってもあまり見ない気がします。しかし速度を重視する場合、必ずしもメモリ安全ではない C/C++ を使わざるを得ず、メモリ安全で高速な Rust は魅力があります。そこで、Rust 界隈でどのような crate があるか調査してみました。

xiangze 2024/07/30

リンク

NVIDIA Hopper アーキテクチャの徹底解説

Reading Time: 12 minutes 2022 年 3 月の NVIDIA GTC 基調講演において、NVIDIA の創業者/CEO であるジェンスンフアンが、新しい NVIDIA Hopper GPU アーキテクチャに基づく NVIDIA H100 Tensor コア GPU を紹介しました。この記事では、新しい H100 GPU の内部と、NVIDIA Hopper アーキテクチャ GPU の重要な新機能について説明します。 NVIDIA H100 Tensor コア GPUの紹介 NVIDIA H100 Tensor コア GPU は、大規模な AI や HPC において前世代の NVIDIA A100 Tensor コア GPU と比較して桁違いの性能の飛躍を実現するために設計された NVIDIA の第 9 世代データセンター GPU です。H100 は、AI と

xiangze 2023/11/24

リンク

Transformer Memory Arithmetic: Understanding all the Bytes in nanoGPT

xiangze 2023/10/28

リンク

How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog

Kernel 1: Naive Implementation In the CUDA programming model, computation is ordered in a three-level hierarchy. Each invocation of a CUDA kernel creates a new grid, which consists of multiple blocks. Each block consists of up to 1024 individual threads.These constants can be looked-up in the CUDA Programming guide. Threads that are in the same block have access to the same shared memory region (S

xiangze 2023/10/07

リンク

CUDA 10.xのDockerイメージをローカルでビルドする - Qiita

1. はじめに https://hub.docker.com/r/nvidia/cudaを見るとわかるようにEOLとなったCUDAバージョンのDockerイメージが削除されています。ただし、Web上にある公開実装ではCUDA 10.x系のDockerイメージを使っていることがあり、これらの動作確認をするときに困ります。幸いにもDockerイメージ作成環境はhttps://gitlab.com/nvidia/container-images/cudaにて公開されているため、ここでは以下のDockerイメージをローカルでビルドすることを試みます。 nvidia/cuda:10.2-base-ubuntu18.04 nvidia/cuda:10.2-runtime-ubuntu18.04 nvidia/cuda:10.2-devel-ubuntu18.04 nvidia/cuda:10.2-c

xiangze 2023/10/03

cuda
docker

リンク

PyTorchでの学習・推論を高速化するコツ集 - Qiita

本記事では、NVIDIAから発表されているPyTorchでのディープラーニングを高速化するコツ集を紹介します。【※NEW】22年6月新記事：スクラム関連の研修・資格のまとめ & おすすめの研修受講方法本記事について本記事は、NVIDIAのArun Mallyaさんの発表、「PyTorch Performance Tuning Guide - Szymon Migacz, NVIDIA」に、説明やプログラムを追加して、解説します。本記事のポイントは、Andrej KarpathyがTwitterで呟いている通りとなります。 good quick tutorial on optimizing your PyTorch code ⏲️: https://t.co/7CIDWfrI0J quick summary: pic.twitter.com/6J1SJcWJsl — Andrej

xiangze 2023/02/22

リンク

TensorRTを使ってStableDiffusionを爆速にする（Windows編）

こんにちは、Fくんです。受験シーズンです... これのwindows版ですねどのくらい速くなるとかLinuxとかColabでの実行方法は前の記事を見ていただいて... Lsmith TensorRTをGUIで扱いやすくするものがだだっこぱんださんから出てます。すぐwindows対応出ると思いますここから先はtensorrt repoのdemo-diffusion.pyを動かしたい人向けです Windowsで実行 CUDAをインストールまずはCUDAをインストールしてください。僕の場合はCUDA 11.6を使います。 ↑ のリンクから、windows > 10 or 11 > exe(local) or exe(network) を選択してください。 cuDNNのインストール cuDNN 8.6をダウンロードします。 ↑ のリンクから、Download cuDNN v8.6.0

xiangze 2023/02/19

リンク

CUDAの高速化の復習2023年版 Reduction編 - まったり勉強ノート

1月 29, 2023 / 最終更新日時 : 1月 29, 2023 Shuji Suzuki (shu) プログラミング今回は最近のCUDA Samplesのコードを参考にCUDAでreductionを速くするテクニックのまとめになります。私はCUDAを2009年のころから研究で使っていました。当時は頑張って勉強していたので自分の研究分野以外のCUDA応用の論文などを読んで高速化テクニックを勉強していました。ただ、2015年に企業に就職して以降、GPUを使うことはあってもCUDAのコードを直接自分で書くことはほとんどなくなってしまいました。このため、最近CUDAのコードを速くするためにどうすればいいのか？みたいな議論のときに、「昔は～」みたいな老害なコメントしかできない状態になってしまっていました。この状態はさすがにまずいということでCUDAの勉強をし直そうと思い、この記事はそのま

xiangze 2023/01/30

cuda

リンク

DockerでのディープラーニングGPU学習環境構築方法 - Qiita

DockerでGPU学習環境構築背景ディープラーニングでローカルPCのGPUを使った学習環境を構築した経験のある人は、一度はNVIDIAのドライバやCUDA周りでハマった経験があるのではないでしょうか？そんなバッドノウハウ（怪文章？）をまとめたQiita記事（TensorFlowでGPU学習させるためにCUDA周りではまったときの対処法）に、なんとNVIDIAの中の人(@ksasaki さん）から「Dockerを使えば…人類は幸せになれる（超意訳）」とのコメントをいただきました！喜び勇んで、NVIDIAのドライバをアップデートしたところ、そこには文鎮と化した起動しないLinuxマシンが…からあげのNVIDIAとの戦いは始まったばかりだ！（戦ってません） DockerでGPU学習環境構築するメリットうまく構築できればという前提で、以下のようなメリットがあります。様々なフレームワーク

xiangze 2023/01/06

リンク

NVIDIA Visual Profiler 入門 - Qiita

はじめに NVIDIA Visual Profilerという、CUDAに関する、描画が少しリッチなProfilerがあります。こんな感じです。ボトルネックを解析したり、Optimizationしたりするのに有効です。リモートマシンでInstallしておいて nvvp とすると起動して、以下のようにターミナル端末からX11とかで起動することもできますが動作が重くなりがちなので、 nvprof でprofilingだけリモートマシンで行なって、 scp でローカルマシンに結果を飛ばして、ローカルの NVIDIA Visual Profilerを使うという一連の流れを紹介したいと思います。 (なお、リモートマシンは nvprofが使えることを前提としてます) 公式のドキュメントはここにあります。(英語) http://docs.nvidia.com/cuda/profiler-use

xiangze 2022/12/31

リンク

cuSOLVER

cuSOLVER API Reference The API reference guide for cuSOLVER, a GPU accelerated library for decompositions and linear system solutions for both dense and sparse matrices. 1. Introduction The cuSolver library is a high-level package based on the cuBLAS and cuSPARSE libraries. It consists of two modules corresponding to two sets of API: The cuSolver API on a single GPU The cuSolverMG API on a single

xiangze 2022/12/30

リンク

GPU/CUDAとPyTorch周りの様々なバージョンを理解する - yag's blog

前置き GPUを利用したディープラーニングの環境構築において、GPUのドライバやCUDAの諸々の設定は初学者が誰しも嵌る最初の難関と言える。私自身これまではネットの情報をあれこれ試して上手く行けばOKで済ませていたが、この辺で今一度正しく理解しておきたい。そこでこの記事を通して、GPU/CUDAとPyTorchの環境構築で遭遇する様々なバージョンの識別とその意味を理解することを目的とする。なお、細かなインストール方法やエラー対応などは本記事では扱わない。また、グラフィックボード/グラフィックカードと呼ぶべきところをGPUと表現している点もご容赦いただきたい。 [注意] この記事はGPU/CUDA素人が書いているので、細かな用語や名称の間違いが多分に含まれていると思われる。間違っていたらごめんなさい。また、事例として紹介しているバージョン番号は当然ながら時が経つにつれ古くなるので注意。 GP

xiangze 2022/11/18

リンク

NVIDIA Docker って今どうなってるの？ (20.09 版)

※ この記事は以前私が Qiita に書いたものを、現状に合わせて更新したものです。(内容、結構変わりました) ※ 2021/01/08 CUDA Toolkit 11.2 のリリースに伴い、「NVIDIA ドライバのインストール」節を更新しました。 ※ 2020/09/24 CUDA Toolkit 11.1 のリリースに伴い、「NVIDIA ドライバのインストール」節を更新しました。エヌビディアの佐々木です。この記事では、Docker 等のコンテナで GPU を利用するための「NVIDIA Docker」の現状を紹介します。「Docker で GPU を使うためにあちこち調べてみたけれど、nvidia-docker コマンドを使えばよいとか、--rutime=nvidiaオプションが必要とか、はたまた Docker が標準で GPU をサポートしたとか、色々な情報があってよくわか

xiangze 2022/09/09

リンク

nvidia-dockerのための，nvidia driver, cudaのインストール・更新方法 2020.12版 - recursivejの技術メモ

nvidia-dockerを使ったGPUマシンのnvidia driver, cuda更新するにあたっての作業メモ環境 Ubuntu 16.04 GPUの最新のドライバは配布されているのか？確認とインストール方法前提: Nvidia-driverとCUDAバージョンの関係を確認 CUDA Toolkit - NVIDIA driver 対応表方法A: NVIDAIドライバダウンロードサイト DLサイト上記サイトで検索すると最新バージョンが確認できる。DLは~.runファイル .runファイルのインストールはいろいろ設定ファイルをいじる必要があり面倒そう→断念 (https://qiita.com/ozota/it ems/28b7e1fbf5015f907638) 方法B: Ubuntu公式aptの利用 $ add-apt-repository ppa:graphics-driver

xiangze 2022/09/09

リンク

CuPy カーネル融合の拡張 - Preferred Networks Research & Development

本記事は、2019年インターンシップとして勤務した徐子健さんによる寄稿です。 2019年度夏季インターンのJoeです。この度インターンプロジェクトとしてCuPyのカーネル融合の拡張に取り組み、既存のカーネル融合の適用範囲を大幅に拡張しました。さらにその応用として、ResNet50のバッチ正規化においてCPU実行時間を30%ほど、GPU実行時間を(入力サイズに大きく依存しますがおおよそ)70%ほど削減することに成功しましたので、その取り組みをご紹介します。背景 CuPyはNumPyと同じAPIを提供するPythonのライブラリで、CUDAを用いて演算を高速に行います。具体的には、行列・ベクトルの要素ごとの演算や、リダクションと呼ばれる、演算によって配列の次元が落ちる演算(たとえばcupy.sum)など、GPUが得意とする計算を高速に行うことができます。さて、CuPyのGPU演算は強力で

xiangze 2019/09/29

gpu
cuda

リンク

Hybridizer: High-Performance C# on GPUs | NVIDIA Technical Blog

Figure 1. The Hybridizer Pipeline. Hybridizer is a compiler from Altimesh that lets you program GPUs and other accelerators from C# code or .NET Assem bly. Using decorated symbols to express parallelism, Hybridizer generates source code or binaries optimized for multicore CPUs and GPUs. In this blog post we illustrate the CUDA target. Figure 1 shows the Hybridizer compilation pipeline. Using parall

xiangze 2018/02/06

C#
CUDA

リンク

Ubuntu 16.04 LTS で NVIDIA Docker を使ってみる - CUBE SUGAR CONTAINER

(2019-09-22 追記) NVIDIA Docker は現在では非推奨 (Deprecated) な方法となっています。代わりに NVIDIA Container Toolkit を使ってください。 blog.amedama.jp 以前、このブログで Keras/TensorFlow の学習を GPU (CUDA) で高速化する記事を書いた。このときは、それぞれの環境の分離には Python の virtualenv を使っていた。 blog.amedama.jp 今回は、別の選択肢として NVIDIA Docker を使う方法を試してみる。 NVIDIA Docker というのは NVIDIA が公式で出している Docker から CUDA を使えるようにするユーティリティ群と Docker イメージ。このやり方だと Docker ホストには NVIDIA Driver さ

xiangze 2018/01/08

cuda
docker

リンク

Deep Learning for Games

xiangze 2017/04/10

リンク

PL/CUDAでk-means法を実装する - KaiGaiの俺メモ

前回のエントリでは、CBI学会で発表を行った、PL/CUDAによる類似化合物の検索について説明した。今回は、コレとはまた別のワークロードに対する応用という事で、クラスタリング処理のIn-Database実装に挑戦してみた。トライしてみたのは k-means法によるクラスタリング。非階層クラスタリングの領域では最も頻繁に使用される（と、言われている）アルゴリズムで、計算量もそこそこ大きい。 k-meansクラスタリングとは教師なし学習方式の一つで、所与のデータ群を一定数(=k個)のグループに分類するためのアルゴリズムである。以下のステップを一定回数、またはクラスタに属するデータ群に変化がなくなるまで繰り返す。１．初期クラスタをランダムに設定する。２．各クラスタの中心点を計算する。３．各データ要素の属するクラスタを更新する。各データ要素はクラスタ中心点が最も近傍であるクラスタに