並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 24 件 / 24件

新着順 人気順

CUDAの検索結果1 - 24 件 / 24件

  • Nintendo Switch 2の詳細スペック判明。CUDAコアは1280基、CPUはArm A78を8コア搭載

    Nintendo Switch 2の詳細スペックが判明。GPU内蔵のCUDAコアは1280基、CPUはArm A78を8コア搭載 Nintendo Switch 2についてはGamescom2023にて関係者内でデモ機が披露され、そこでUnreal Engine 5などが動作しているデモが行われたという噂が出るなど、発売に向けて着々と開発が進められているためかここ最近はリーク情報が多く出始めています。 今回はこの中でも今まで明らかにされていたAmpereアーキテクチャーのGPUを搭載すると言う情報に加えて、このGPUに内蔵されるCUDAコア数やCPUのアーキテクチャーとコア数、そして製造プロセスに関する情報が登場しました。 Samsung Foundry 7LPH(8-nanometer improved version) — Revegnus (@Tech_Reve) September

      Nintendo Switch 2の詳細スペック判明。CUDAコアは1280基、CPUはArm A78を8コア搭載
    • Apple A4チップやAMD Ryzenの生みの親であるジム・ケラー氏がNVIDIAのCUDAとx86アーキテクチャを「沼」と呼んで批判

      AMDのAthlonやZenマイクロアーキテクチャ、Apple A4などさまざまなチップの開発に携わったアーキテクトでエンジニアのジム・ケラー氏が、X(旧Twitter)で「NVIDIAのCUDAは沼です」と批判したことが報じられています。 Jim Keller criticizes Nvidia's CUDA, x86 — 'Cuda’s a swamp, not a moat. x86 was a swamp too' | Tom's Hardware https://www.tomshardware.com/tech-industry/artificial-intelligence/jim-keller-criticizes-nvidias-cuda-and-x86-cudas-a-swamp-not-a-moat-x86-was-a-swamp-too ケラー氏の経歴は以下の記事を

        Apple A4チップやAMD Ryzenの生みの親であるジム・ケラー氏がNVIDIAのCUDAとx86アーキテクチャを「沼」と呼んで批判
      • AI分野でのNVIDIA一強状態を崩すためにIntel・Google・富士通・Armなどが参加する業界団体がCUDA対抗のAI開発環境を構築中

        NVIDIAはAI開発に使われるGPUで大きなシェアを獲得しているほか、ソフトウェア開発および実行環境「CUDA」もAIの開発現場で広く採用されています。そんなNVIDIAの一人勝ち状態に対抗するべく、Intelや富士通、Google、Armなどのテクノロジー企業が参加する業界団体「Unified Acceleration Foundation(UXL Foundation)」がオープンなソフトウェア開発環境の構築を進めています。 UXL Foundation: Unified Acceleration https://uxlfoundation.org/ Unified Acceleration (UXL) Foundation https://www.intel.com/content/www/us/en/developer/articles/news/unified-accelera

          AI分野でのNVIDIA一強状態を崩すためにIntel・Google・富士通・Armなどが参加する業界団体がCUDA対抗のAI開発環境を構築中
        • NVIDIAがCUDAを他のハードウェア上で実行することを禁止

          NVIDIAが、GPU向けのコンピューティングプラットフォームとして提供している「CUDA」のソフトウェア利用許諾契約(EULA)の中で、翻訳レイヤーを通じてNVIDIA以外のハードウェアプラットフォームで実行することを禁止していることがわかりました。もともとこの条項はNVIDIAのサイト上で公開されているオンライン版のEULAには含まれていましたが、インストールしたCUDAのドキュメントにも含まれるようになったとのことです。 License Agreement for NVIDIA Software Development Kits — EULA https://docs.nvidia.com/cuda/eula/index.html Nvidia bans using translation layers for CUDA software — previously the prohi

            NVIDIAがCUDAを他のハードウェア上で実行することを禁止
          • AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - まぐまぐニュース!

            空前のAIブームの中にあって、その開発の現場で「一人勝ち」とも言うべき圧倒的なシェアを誇っているNvidia(エヌビディア)のGPU向け開発環境「CUDA」。IntelやAppleといったライバルたちを尻目に、いかにしてCUDAはトップに登り詰めたのでしょうか。今回のメルマガ『週刊 Life is beautiful』では世界的エンジニアとして知られる中島聡さんが、CUDA誕生の経緯から業界の「事実上の標準」となるまでを詳しく解説。さらにMicrosoftが5月20日に発表した「Copilot+PC」に関して、中島さんが注目したポイントを記しています。 ※本記事のタイトル・見出しはMAG2NEWS編集部によるものです/原題:NvidiaのCUDAが今の地位を築いた経緯 プロフィール:中島聡(なかじま・さとし) ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシ

              AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - まぐまぐニュース!
            • GPU・CUDAを活用して数値計算やAIのトレーニングを高速化するのに必要な基礎知識のコード例付きまとめ

              GPUはCPUよりもはるかに多くのコアを備えており、多数の並列処理を行う事が可能です。そうしたGPUの性能を活用するために必要な知識を、ITエンジニアのリジュル・ラジェシュさんがブログにまとめています。 GPU Survival Toolkit for the AI age: The bare minimum every developer must know https://journal.hexmos.com/gpu-survival-toolkit/ 現代のAIモデルで使用されているTransformerアーキテクチャは並列処理を活用して大きく性能を向上させており、そうしたAIの開発に関わる場合は並列処理についての理解が必須になってきます。CPUは通常シングルスレッドの逐次処理性能が高まるように設計されており、複雑なAIモデルで必要となる、多数の並列計算を効率的に分散して実行するのに

                GPU・CUDAを活用して数値計算やAIのトレーニングを高速化するのに必要な基礎知識のコード例付きまとめ
              • CUDAによる局所特徴量計算の高速化とソースコード公開 - Fixstars Tech Blog /proc/cpuinfo

                このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。 はじめに こんにちは、エンジニアの高木です。 私は現在、adaskitという社内の自動運転関連のオープンソースプロジェクトに携わっており、プロジェクトの成果としてこれまでlibSGMやcuda-bundle-adjustmentなどを公開しています。 今回はVisual SLAMやSfM(Structure from Motion)で行われる局所特徴量計算について、CUDAによる高速化に取り組んだ話を紹介します。また、そのソースコードをcuda-efficient-featuresという名前でGitHubに公開しました。 fixstars/cuda-efficient-features 背景 局所特徴量計算 Visual SLAMやSfMでは、2つの視点間の相対的なカメラ姿勢を推定する

                  CUDAによる局所特徴量計算の高速化とソースコード公開 - Fixstars Tech Blog /proc/cpuinfo
                • 「AMD ROCm」が「WSL 2」にベータ対応 ~NVIDIAでいうところの「CUDA」に相当/マルチGPU、「Tensorflow」もサポート

                    「AMD ROCm」が「WSL 2」にベータ対応 ~NVIDIAでいうところの「CUDA」に相当/マルチGPU、「Tensorflow」もサポート
                  • CUDA 10.xのDockerイメージをローカルでビルドする - Qiita

                    1. はじめに https://hub.docker.com/r/nvidia/cudaを見るとわかるようにEOLとなったCUDAバージョンのDockerイメージが削除されています。ただし、Web上にある公開実装ではCUDA 10.x系のDockerイメージを使っていることがあり、これらの動作確認をするときに困ります。 幸いにもDockerイメージ作成環境はhttps://gitlab.com/nvidia/container-images/cudaにて公開されているため、ここでは以下のDockerイメージをローカルでビルドすることを試みます。 nvidia/cuda:10.2-base-ubuntu18.04 nvidia/cuda:10.2-runtime-ubuntu18.04 nvidia/cuda:10.2-devel-ubuntu18.04 nvidia/cuda:10.2-c

                      CUDA 10.xのDockerイメージをローカルでビルドする - Qiita
                    • 安くなってきた中古ゲーミングノートPCを使いローカル生成AIのStable-Diffusion ForgeをCUDAでチューニングしてみた。FP8+LCM Turbo+HyperTileで3.8秒〜15.4秒/枚とそこそこ高速。CPU対比5倍速。古いGPUでもオススメ

                      Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 という事で中古ゲーミングノートブックPC+CUDA+Stable-Diffusion Forge+FP8+LCM Turbo+HyperTileで1024x512が7.6秒/枚 Model Memory (MB) = 819.7106971740723 Minimal Inference Memory (MB) = 1024.0 贅沢を言わなければ世代遅れマシンでも十分使える。 CPUと比べて5倍速程度だけど pic.twitter.com/IDI9ICJq8Z 2024-03-24 11:19:13

                        安くなってきた中古ゲーミングノートPCを使いローカル生成AIのStable-Diffusion ForgeをCUDAでチューニングしてみた。FP8+LCM Turbo+HyperTileで3.8秒〜15.4秒/枚とそこそこ高速。CPU対比5倍速。古いGPUでもオススメ
                      • NVIDIAの「CUDA」とIntelのGPUをつなぐソフトウェア「ZLUDA」がAMD向けとして転身復活するも今後の開発は絶望的

                        NVIDIAのコンピューティング向けGPU活用技術「CUDA」をIntel GPUで実行できるようにしたソフトウェア「ZLUDA」が復活しましたが、IntelではなくAMDのGPUで動作するよう改変が加えられていました。 AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source - Phoronix https://www.phoronix.com/review/radeon-cuda-zluda Software allows CUDA code to run on AMD and Intel GPUs without changes — ZLUDA is back but both companies ditched it, nixing future updates | T

                          NVIDIAの「CUDA」とIntelのGPUをつなぐソフトウェア「ZLUDA」がAMD向けとして転身復活するも今後の開発は絶望的
                        • NVIDIA GeForce RTX 3050 8GB版が生産終了。CUDAコアを減らした6GB版が新たに登場

                          NVIDIAがGeForce RTX 3050 8GB版の生産終了へ。RTX 3050 6GB版が2024年1月に新たに登場。 消息称英伟达 RTX 3050 8G 显卡将停产,6G 版 1 月上市 – IT之家 (ithome.com) NVIDIAではGeForce RTX 3050 8GB版を2022年1月5日に発売しましたが、中国で半導体製品関係のリーク情報が流れる掲示板、『博板堂』にて同グラフィックカードがまもなく生産終了となり、2024年1月に現行モデルより性能を落としたGeForce RTX 3050 6GBが新たに登場し、置き換えられる事が明らかになりました。 It is expected use same GPU as 3050 Mobile, 2048 CUDA https://t.co/C01MZPzo7K — 포시포시 (@harukaze5719) Decembe

                            NVIDIA GeForce RTX 3050 8GB版が生産終了。CUDAコアを減らした6GB版が新たに登場
                          • GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA

                            LLM training in simple, pure C/CUDA. There is no need for 245MB of PyTorch or 107MB of cPython. For example, training GPT-2 (CPU, fp32) is ~1,000 lines of clean code in a single file. It compiles and runs instantly, and exactly matches the PyTorch reference implementation. I chose GPT-2 as the first working example because it is the grand-daddy of LLMs, the first time the modern stack was put toge

                              GitHub - karpathy/llm.c: LLM training in simple, raw C/CUDA
                            • 「NVIDIA GeForce RTX 3050 6GB」がこっそり登場。CUDAコア数もメモリバス幅も減少、補助電源が不要に

                              「NVIDIA GeForce RTX 3050 6GB」がこっそり登場。CUDAコア数もメモリバス幅も減少、補助電源が不要に NVIDIAは2月2日(現地時間)、これまで展開してきた「GeForce RTX 3050 8GB」の新しいバリアントとして「GeForce RTX 3050 6GB」を投入した。NVIDIAのメーカー想定売価は169ドル(海外ソース)とされており、より廉価に設定されている。 「NVIDIA GeForce RTX 3050 6GB」がこっそり登場 - CUDAコア数もメモリバス幅も減少、補助電源が不要に RTX 3050にはすでに8GBモデルが展開されてきており、今回投入されたのはいわゆる廉価版バリアント。NVIDIA Ampereアーキテクチャを採用するGA107-325コアを搭載しており、GPUメモリにGDDR6 6GBを搭載。ベースクロックは1,042MH

                                「NVIDIA GeForce RTX 3050 6GB」がこっそり登場。CUDAコア数もメモリバス幅も減少、補助電源が不要に
                              • AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - ページ 3 / 3 - まぐまぐニュース!

                                人工知能の研究者たちに瞬く間に広まった4つの情報 なぜ彼が、OpenCLではなくCUDAを採用したかについては、本人と会う機会があったら是非とも聞いてみたいところですが、この事件は、人工知能の研究者たちに大きなインパクトを与えました。具体的に言えば、 長く続いていた「人工知能の冬」がようやく終わった ニューラルネットは、そのサイズがものを言う ニューラルネットの計算は、GPUを使うと桁違いの高速化が出来る GPUを使いこなすには、CUDAを使えば良い という情報が、瞬く間に広まったのです。4番目は、OpenCLでも良かったはずなのですが、たまたまAlexNetがCUDAを採用していたため、「ニューラルネットの高速化にはCUDAを使うべし」という情報が研究者の間に瞬く間に広まってしまったのです。 この事件をきっかけに、CUDAが人工知能の研究者たちの間に瞬く間に広まったとは言え、CUDAはN

                                  AI時代に一人勝ち。NVIDIAの「CUDA」がIntelやAppleを蹴散らし業界の“実質的なスタンダード”になった背景を中島聡が徹底解説 - ページ 3 / 3 - まぐまぐニュース!
                                • GREENLIGHT 1/64 1971 Plymouth 'Cuda THE BROADMOOR PIKES PEAK INTERNATIONAL HILL CLIMB  "GRAN TURISMO" RACE TO THE CLOUDS - usunonooのブログ@トミカ倉庫

                                  【当ブログではアフィリエイト広告・PRが表示されています。】 皆様、こんばんは。 usunonooです。 今夜は グリーンライト 1/64スケール パイクスピーク インターナショナル ヒルクライム 1971 プリムス クーダ をご紹介致します。 こちらはグリーンライトとレースゲームのグランツーリスモとのコラボモデルとして、2023年7月頃からトイザらスなどでも入手可能なミニカーとして発売されていました。 リンク アメリカ・コロラド州にあるロッキー山脈の東端に聳える山、パイクス・ピーク。 その山の標高2800mのスタート地点からおよそ20kmにも及ぶ一本道を、山頂がある標高4301mを目指しひた走るレースが『パイクスピーク・インターナショナル・ヒルクライム』と呼ばれています。 アメリカ国内においては、インディ500に次ぐ歴史と人気を誇るモータースポーツとして認知されており、1916年から毎年

                                    GREENLIGHT 1/64 1971 Plymouth 'Cuda THE BROADMOOR PIKES PEAK INTERNATIONAL HILL CLIMB  "GRAN TURISMO" RACE TO THE CLOUDS - usunonooのブログ@トミカ倉庫
                                  • CUDA&cuDNN環境構築のためのバージョン確認方法(Windows) - 101の保存箱

                                    はじめに 深層学習技術を用いたソフトを使用する際に、CUDAとcuDNNの導入が必要なケースも増えてきました。 ダウンロードやインストールもそこそこ難易度が高いですが、インストールできたとしても動かないことがよくあります。よくある問題の1つは、バージョンの相性問題です。 そこでこの記事では、各ツールのバージョンを確認する方法を記載します。(※各ツールのインストール方法は扱いません) バージョン合わせの重要性 ハード側は、GPU ドライバーのバージョンによって、動作するCUDAバージョンが決まり1、そのCUDAバージョンによって動作するcuDNNのバージョンが決まり2ます。 この条件を満たした上でさらに、ソフト側がサポートするバージョンであること、が求められます。 ※ソフト側からすれば使いたいのはcuDNNやCUDAなので、以下のように逆の流れで決まるわけですね。 ソフトはcuDNNのバージ

                                      CUDA&cuDNN環境構築のためのバージョン確認方法(Windows) - 101の保存箱
                                    • Moore Threads、CUDAコードがそのまま移植できるGPU「MTT S4000」

                                        Moore Threads、CUDAコードがそのまま移植できるGPU「MTT S4000」
                                      • huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita

                                        はじめに 学習スクリプトを実行しているときにGPUにメモリが乗り切らなくてCUDA out of memoryで処理が落ちてしまい、学習スクリプトを最初から実行し直すハメになることがよくあります。 特に自然言語処理とかだと、batch毎に最大系列長に合わせて短い系列をpaddingするような処理をしている場合、毎ステップで必要なGPUメモリが変化するため、バッチサイズを大きく設定していると1エポック終わるまで不安で仕方ありません。 さらにTransformerベースのアーキテクチャーを使っている場合は、消費メモリが系列長に対して2乗のオーダーなので、ちょっと長い系列長のデータがあったら想定以上にメモリを消費して溢れてしまうケースとかもよくあるんじゃないでしょうか。 huggingfaceのaccelerateというライブラリ内のfind_executable_batch_sizeという機能

                                          huggingfaceのaccelerateを使って訓練時のCUDA out of memoryを回避する - Qiita
                                        • CUDAコア数が20%以上も増加したSUPERモデル第1弾、NVIDIA「GeForce RTX 4070 SUPER」実力検証 - エルミタージュ秋葉原

                                          エルミタ的速攻撮って出しレビュー Vol.1382 CUDAコア数が20%以上も増加したSUPERモデル第1弾、NVIDIA「GeForce RTX 4070 SUPER」実力検証 2024.01.16 更新 文:編集部 池西 樹/撮影:松枝 清顕 NVIDIA Corporation(本社:アメリカ・カリフォルニア州)から、CES 2024に合わせて発表された最新グラフィックスカード「GeForce RTX 40 SUPER」シリーズ。その第1弾モデルとなる「GeForce RTX 4070 SUPER」の発売が2024年1月17日より解禁される。そこで今回は先日のファーストインプレッションに続き、「GeForce RTX 4070 SUPER Founders Edition」の実力をじっくりと検証していくことにしよう。 AD104を採用しながらコア数、L2キャッシュとも大幅に増加 今

                                            CUDAコア数が20%以上も増加したSUPERモデル第1弾、NVIDIA「GeForce RTX 4070 SUPER」実力検証 - エルミタージュ秋葉原
                                          • AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source - Phoronix

                                            AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source Written by Michael Larabel in Display Drivers on 12 February 2024 at 09:00 AM EST. Page 1 of 4. 153 Comments. While there have been efforts by AMD over the years to make it easier to port codebases targeting NVIDIA's CUDA API to run atop HIP/ROCm, it still requires work on the part of developers. The tooling has i

                                              AMD Quietly Funded A Drop-In CUDA Implementation Built On ROCm: It's Now Open-Source - Phoronix
                                            • Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER

                                              LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。 このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。 詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った学習の実装が全面的に書き直されたことが挙げられる。 以前の LightGBM は、GPU を学習に使う場合でも、その計算リソースを利用できる範囲が限られていた。 それが、今回の全面的な刷新によって、利用の範囲が拡大されたとのこと。 ただし、PyPI で配布されている Linux 向け Wheel ファイルは CUDA での学習に対応していない。 対応しているのは CPU と、GPU でも OpenCL の API を使ったもの。 そのため、もし CUDA を使った学習を利用したい場合には自分で Wheel を

                                                Python: LightGBM v4.0 の CUDA 実装を試す - CUBE SUGAR CONTAINER
                                              • How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog

                                                Kernel 1: Naive Implementation In the CUDA programming model, computation is ordered in a three-level hierarchy. Each invocation of a CUDA kernel creates a new grid, which consists of multiple blocks. Each block consists of up to 1024 individual threads.These constants can be looked-up in the CUDA Programming guide. Threads that are in the same block have access to the same shared memory region (S

                                                  How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog
                                                • [CUDA] NVIDIA GPUやCUDA周りの互換性を理解したかった

                                                  よくわからなかったので、調べて整理しようとした試み。 Compute Capability GPU ハードウェアがサポートする機能を識別するためのもので、例えば RTX 3000 台であれば 8.6 であるなど、そのハードウェアに対応して一意に決まる。 アーキテクチャの世代が新しくなり、機能が増えるほど、この数字も上がっていく。 以下のリンク先に、Compute Capability と機能の対応表があるが、これを見ると(少なくとも執筆時点で) Compute Capability 7.x 以上でテンソルコアが使えるといったことがわかる。 それぞれの機種がどの値かは以下のサイトから確認できる。 NVIDIA Driver のバージョン Compute Capablity 一般向けの Compute Capability との関連性は見つからなかったが、データセンタ向けの資料には Maxwe

                                                    [CUDA] NVIDIA GPUやCUDA周りの互換性を理解したかった
                                                  1