[B! GPU] xiangzeのブックマーク

xiangze id:xiangze

GPUに関するxiangzeのブックマーク (158)

Rust でML に挑戦してみた | 豆蔵デベロッパーサイト
こんにちは。この記事が初投稿となります、松本です。よろしくお願いします。さて、C/C++ に代わる言語として注目を浴びている Rust ですが、ML や NN の記事量は圧倒的に Python で、Rust で書いた例はググってもあまり見ない気がします。しかし速度を重視する場合、必ずしもメモリ安全ではない C/C++ を使わざるを得ず、メモリ安全で高速な Rust は魅力があります。そこで、Rust 界隈でどのような crate があるか調査してみました。
xiangze 2024/07/30
rust

機械学習

gpu

cuda
リンク
GPU Vendor/Programming Model Compatibility Table
xiangze 2024/01/07
gpu
リンク
サーベイ: Efficient MPI-AllReduce for large-scale deep learning on GPU-clusters (2021) - Sabrou-mal サブロウ丸
@article{thao2021efficient, title={Efficient MPI-AllReduce for large-scale deep learning on GPU-clusters}, author={Thao Nguyen, Truong and Wahib, Mohamed and Takano, Ryousei}, journal={Concurrency and Computation: Practice and Experience}, volume={33}, number={12}, pages={e5574}, year={2021}, publisher={Wiley Online Library} } url: https://onlinelibrary.wiley.com/doi/am-pdf/10.1002/cpe.5574 どんなもの？
xiangze 2023/12/19
gpu
リンク
NVIDIA GPU、L3 Cacheを投入する？ - Vengineerの戯言
はじめに NVIDIAのL2 Cacheの構成が GA100(A100)で変わり、GH100(H100)でも同じ構成になっているのは、このブログにもアップしました。 GH100(H100)の次(Blackwell : GB100)になったら、もしかしたら、L3 Cache が投入されるかもしれません。再度、GPU Domain Specialization via Composable On-Package Architecture このブログでも何度か取り上げた、GPU Domain Specialization via Composable On-Package Architecture では、GPU die を GPU Module と L3 Cache + HBM の 22種類のdie に分けて、性能を上げる作戦について説明しています。説明のために下図を引用します。論文の5ペ
xiangze 2023/12/01
gpu
リンク
ZeRO-Infinity and DeepSpeed: Unlocking unprecedented model scale for deep learning training - Microsoft Research
ZeRO-Infinity and DeepSpeed: Unlocking unprecedented model scale for deep learning training Published April 19, 2021 By DeepSpeed Team Rangan Majumder , Vice President Andrey Proskurin , Corporate Vice President of Engineering Since the DeepSpeed optimization library was introduced last year, it has rolled out numerous novel optimizations for training large AI models—improving scale, speed, cost,
xiangze 2023/11/29
gpu

deeplearning
リンク
なぜ日本はGPUのない「富岳」でLLMを研究するのか　外国に後れを取らないための“現実的な理由”
米OpenAIの大規模言語モデル（LLM）・GPT-4は今、世界を大きく塗り替え続けている技術の一つだ。世界各国の企業がこぞってLLMの開発を進めている。特にGAFAなどの巨大企業は、その膨大な資源を使ってすでにいくつものLLMを世に放っている。そんな中、日本では理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」を使ったLLMの研究を今まさに進めている。学習手法の研究からデータの法的な扱いまで幅広く検討し、日本のLLM開発の基盤を作るのが目的だ。深層学習といえば、今ではGPUを使うのが一般的になっている。しかし富岳はそのGPUを搭載していない。日本にはGPU搭載スパコンも存在するのに、なぜ富岳を使ってLLMを研究するのか。今回は富士通研究所・コンピューティング研究所の中島耕太所長と白幡晃一さんに、富岳を使ったLLM研究について、その意義を聞いた。富岳は確かに
xiangze 2023/11/28
LLM

gpu
リンク
NVIDIA Hopper アーキテクチャの徹底解説
Reading Time: 12 minutes 2022 年 3 月の NVIDIA GTC 基調講演において、NVIDIA の創業者/CEO であるジェンスンフアンが、新しい NVIDIA Hopper GPU アーキテクチャに基づく NVIDIA H100 Tensor コア GPU を紹介しました。この記事では、新しい H100 GPU の内部と、NVIDIA Hopper アーキテクチャ GPU の重要な新機能について説明します。 NVIDIA H100 Tensor コア GPUの紹介 NVIDIA H100 Tensor コア GPU は、大規模な AI や HPC において前世代の NVIDIA A100 Tensor コア GPU と比較して桁違いの性能の飛躍を実現するために設計された NVIDIA の第 9 世代データセンター GPU です。H100 は、AI と
xiangze 2023/11/24
nvidia

cuda

gpu
リンク
NVIDIA Turing Architecture In-Depth | NVIDIA Technical Blog
Fueled by the ongoing growth of the gaming market and its insatiable demand for better 3D graphics, NVIDIA® has evolved the GPU into the world’s leading parallel processing engine for many computationally-intensive applications. In addition to rendering highly realistic and immersive 3D games, NVIDIA GPUs also accelerate content creation workflows, high performance computing (HPC) and datacenter a
xiangze 2023/11/24
gpu

nvidia
リンク
【1カ月集中講座】骨まで理解するPCアーキテクチャ(GPU編) 第1回～固定機能からシェーダへの移り変わり
xiangze 2023/11/06
GPGPU

gpu

歴史

hardware
リンク
Jetson AGX Orin 32GB開発者キット--在庫限り
本製品を購入された方の顧客情報は当社からマクニカ社へ共有いたします。予めご了承ください。開発キットのセットアップを実施される中で何か不都合等ございましたら、マクニカ社お問い合わせフォームまでご連絡ください。 2022年12月29日以降出荷するロットについて、仕入元のマクニカ社によるキャンペーンで同梱されていた「DisplayPort - HDMI変換ケーブル」が同梱されている場合があります。同キャンペーンの他特典については当社出荷販売分については適用されませんのでご容赦ください。最大200TOPSの性能を持つJetson AGX Orinモジュールを搭載したNVIDIA Jetson AGX Orin 開発者キットは、製造、物流、小売、サービス、農業、スマートシティー、ヘルスケア、ライフサイエンスのための高度なロボットや AI エッジアプリケーションの開発ができます。 NVIDIA J
xiangze 2023/11/04
nvidia

jetson

GPU
リンク
How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog
Kernel 1: Naive Implementation In the CUDA programming model, computation is ordered in a three-level hierarchy. Each invocation of a CUDA kernel creates a new grid, which consists of multiple blocks. Each block consists of up to 1024 individual threads.These constants can be looked-up in the CUDA Programming guide. Threads that are in the same block have access to the same shared memory region (S
xiangze 2023/10/07
cuda

gpu

benchmark
リンク
Llama2の70Bモデルを4bit量子化して1GPUで実行する方法 - TadaoYamaokaの開発日記
個人メモ Hugging Faceで公開されているLlama2のモデルを使用して、4bit量子化を有効にして、70Bのモデルを1GPU(A100)で推論する方法について記述する。 dockerコンテナ作成 NVIDIAのPyTorchイメージを使用してDockerコンテナを作成する。 ※ホストのドライババージョンが古いため、少し前のイメージを使用している。コマンド例 docker run --gpus all --network host -v /work:/work -w /work -it nvcr.io/nvidia/pytorch:22.12-py3 PyTorchバージョンアップ xformersがpytorch 2.0.1を要求するためPyTorchをアンインストールしてからインストール pip uninstall torch torchvision torchtext to
xiangze 2023/07/24
LLM

GPU
リンク
インテルの GPU を使用して YOLOv8 で 1000fps 越えを達成するには | iSUS
この記事は、Medium に公開されている「How to get YOLOv8 Over 1000 fps with Intel GPUs?」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。この記事の PDF 版はこちらからご利用になれます。著者: Raymond Lo インテルコーポレーション AI ソフトウェア・エバンジェリスト OpenVINO™ とインテル® Arc™ A770m グラフィックスがあれば YOLOv8 で 1000fps 越えを達成できます! GPU で AI 推論を実行することは新しいトピックではありません。最近では、AI のトレーニングと推論に GPU を使用するアプリケーションも多くなりました。では、新しいインテル® Arc™ グラフィックスを使用して同じことができるでしょうか? どうすれば良
xiangze 2023/07/23
画像認識

Intel

GPU
リンク
元Appleの天才半導体エンジニアが予測、「AIで半導体設計者はほぼ不要に」
TenstorrentはAIプロセッサーを開発するスタートアップ企業。「生成AIではCPUよりも画像に特化したGPUが使われる。だが、まだ効率化には十分でない。CPUでもGPUでもないハードウエア設計により、米NVIDIA（エヌビディア）の10分の1の消費電力の実現を目指している」とケラー氏は話す。「RISC-V Day Tokyo 2023 Summer カンファレンス」（2023年6月20日、東京大学で開催）に合わせて来日した（撮影：日経クロステック）ケラー氏は、「伝説」と称される半導体エンジニアである。米アドバンスト・マイクロ・デバイスズ（AMD）や米Apple（アップル）の主力製品において、設計面で大きく貢献した経歴を持つからだ。例えば、AMDのCPUコア「Zen」やAppleのSoC（System on a Chip）「Aシリーズ」第1弾である「A4」の設計に携わった注1）。
xiangze 2023/06/28
半導体

AI

nvidia

gpu
リンク
ABCIで回そう爆速深層学習 (基礎編)
チーム内で使用したABCI活用Tips集を公開します．免責｜本資料は坂東の個人的経験・実験に基づくTips集であり，ABCI公式とは無関係で不正確な場合があります．公式情報は https://abci.ai , https://docs.abci.ai をご参照下さい．
xiangze 2023/06/14
機械学習

pytorch

gpu

python

スパコン
リンク
Nvidiaが先行投資する6大分野　AIの次の成長の種は - 日本経済新聞
浮き沈みの激しい半導体業界では新たな成長の種をいち早く見つけることが、勝ち残りの鍵となる。米エヌビディアは最近では暗号資産（仮想通貨）のマイニング（採掘）の需要をつかみ、今は生成AI（人工知能）の波に乗ろうとしている。では同社は次に何が来るとにらんでいるのだろうか。同社が投資・提携する企業をCBインサイツが分析すると、AIを含めて6つの分野が浮かび上がった。工場を持たず、半導体の設計に特化してい
xiangze 2023/06/05
・AI&機械学習　・自動運転　・クラウド&データインフラ　・デジタルツイン　・ヘルスケア　・量子コンピューティング&HPC

gpu

nvidia

半導体
リンク
AMD Fusion Developer Summit 2011 Session Catalog
Products Processors Accelerators Graphics Adaptive SoCs, FPGAs, & SOMs Software, Tools, & Apps
xiangze 2023/05/30
AMD

OpenCL

programming

gpu
リンク
NVIDIA新ドライバでStable Diffusionの処理能力が倍に
xiangze 2023/05/24
stablediffusion

gpu

computer
リンク
DockerでGPUを使おうとしたらError response from daemon: linux runtime spec devices: could not select device driver “” with capabilities: [[gpu]]
docker container run –gpus all をした時に表題のエラー。 NVIDIAドライバーがDockerを認識できていないか、nvidia container tools をインストールしたけどDockerのデーモンを再起動していない場合に起きる。パスはどこでもいいので以下のスクリプトを作製し、実行すればOK。 $ cat nvidia-container-runtime-script.sh curl -s -L https://nvidia.github.io/nvidia-container-runtime/gpgkey | \ sudo apt-key add - distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-con
xiangze 2023/03/05
docker

gpu
リンク
PyTorchでの学習・推論を高速化するコツ集 - Qiita
本記事では、NVIDIAから発表されているPyTorchでのディープラーニングを高速化するコツ集を紹介します。【※NEW】22年6月新記事：スクラム関連の研修・資格のまとめ & おすすめの研修受講方法本記事について本記事は、NVIDIAのArun Mallyaさんの発表、「PyTorch Performance Tuning Guide - Szymon Migacz, NVIDIA」に、説明やプログラムを追加して、解説します。本記事のポイントは、Andrej KarpathyがTwitterで呟いている通りとなります。 good quick tutorial on optimizing your PyTorch code ⏲️: https://t.co/7CIDWfrI0J quick summary: pic.twitter.com/6J1SJcWJsl — Andrej
xiangze 2023/02/22
pytorch

nvidia

gpu

cuda

機械学習
リンク
1 2 3 4 5 6 7 8 次のページ