並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 112件

新着順 人気順

GPUの検索結果1 - 40 件 / 112件

  • 【特集】 約30年でGPUはどのぐらい速くなったの?歴史を振り返りつつぜ~んぶ計算してみた

      【特集】 約30年でGPUはどのぐらい速くなったの?歴史を振り返りつつぜ~んぶ計算してみた
    • 【レビュー】 「Ryzen AI 300」は省電力でCPU/GPUはデスクトップ並みという優秀さ。NPU搭載のRyzen AI 9 HX 370を性能検証

        【レビュー】 「Ryzen AI 300」は省電力でCPU/GPUはデスクトップ並みという優秀さ。NPU搭載のRyzen AI 9 HX 370を性能検証
      • NVIDIA製GPUの数十倍速い? 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み

        NVIDIA製GPUの数十倍速い? 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み(1/3 ページ) スタートアップ企業の米Etchedが発表した「Sohu」が、AI業界に新たな波紋を投げかけている。トランスフォーマーモデルに特化したこのAI専用チップは、米NVIDIAのH100 GPUと比較して20倍高速かつ低コストで動作すると主張しているからだ。 SohuのようなAI専用チップの登場は、AI業界にどのような変革をもたらすのか。汎用性の高いGPUから特化型チップへの移行は、AI開発のアプローチをどう変えるのか。そして、こうした専用ハードウェアの普及は、ソフトウェア開発の方向性にどのような影響を与えるのか。 オーダーメイドによるAIソリューション「カスタムAI」の開発・提供を行うLaboro.AI(東京都中央区)の椎橋徹夫CEOに、AI専用チップがもたらす可能性と課題

          NVIDIA製GPUの数十倍速い? 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み
        • 次期最強GPU「RTX 5090」が、いろいろとヤバそうな件について

          次期最強GPU「RTX 5090」が、いろいろとヤバそうな件について2024.07.23 08:00130,056 武者良太 グラフィックの処理能力がヤバそう。そして価格も。 2024年末から2025年の3月までに、Nvidia(エヌビディア)の新しいGPU「GeForce RTX 50」シリーズが発売されるだろうというリーク情報が増えてきました。Dexertoの記事によれば、最初にリリースされるのはRTX 5090だ、いやRTX 5080だと、リーカーによって予想が異なっていますが、2022年のRTX 40シリーズ同様、まずはハイエンド寄りのモデルから発売するという流れは変わらないみたい。 ともあれ生成AIトレンドとともに重視されているNPUではなく、純粋なGPUの最新型となるRTX 50シリーズのなかでも頂点となるRTX 5090に期待している方も多いでしょう。いったいどんな性能を持っ

            次期最強GPU「RTX 5090」が、いろいろとヤバそうな件について
          • 「Ryzen AI 300」とはどんなプロセッサなのか。高効率Zen 5cコアに新世代NPUとPS5を超えるGPUを組み合わせる[西川善司の3DGE]

            「Ryzen AI 300」とはどんなプロセッサなのか。高効率Zen 5cコアに新世代NPUとPS5を超えるGPUを組み合わせる[西川善司の3DGE] ライター:西川善司 COMPUTEX TAIPEI 2024で基調講演を行うAMD CEOのLisa Su氏。Ryzen 9000よりも,Ryzen AI 300の紹介に時間を割いていた 2024年6月3日にAMDは,Zen 5アーキテクチャを採用した新Ryzenである「Ryzen 9000」シリーズを発表したわけだが,Zen 5アーキテクチャを採用したCPUは,Ryzen 9000シリーズだけではない。ノートPC向けAPUの「Ryzen AI 300」シリーズも,同時に発表しているのだ。APUであるので,「高性能なCPU」と「高性能なGPU」を統合したSoC(System-on-a-Chip)である。 そのうえ,名称に「AI」と付いている

              「Ryzen AI 300」とはどんなプロセッサなのか。高効率Zen 5cコアに新世代NPUとPS5を超えるGPUを組み合わせる[西川善司の3DGE]
            • エヌビディアのGPUカーネルモジュールのオープンソース化--「Linux」への影響を考える

              Steven J. Vaughan-Nichols (Special to ZDNET.com) 翻訳校正: 川村インターナショナル 2024-07-24 07:30 いつからなのか思い出そうという気にならないほど長い間、「Linux」ユーザーは世界有数のグラフィックスプロセッシングユニット(GPU)企業であるNVIDIAを憎んできた。なぜかというと、他のすべての企業が自社のドライバーをオープンソース化した後も、NVIDIAは長年にわたりそれを拒否したからだ。また、Linuxカーネル開発者に対し、オープンソースドライバーの構築に必要なデータを提供しなかったため、Linuxユーザーは品質の劣るプロプライエタリーなドライバーを使い続けるしかなかった。そのNVIDIAがついに、自社のGPUドライバーコードをオープンソース化した。 「憎んできた」と書いたが、それほど強い言葉を使ったつもりはない。有

                エヌビディアのGPUカーネルモジュールのオープンソース化--「Linux」への影響を考える
              • 次世代の高速計算。自動で高効率なGPU対応コードに変換するプログラム。 - Qiita

                タイトル: GPUの力を解放するプログラマー 東京の繁華街、青山のオフィスビルに住むプログラマーの田中健太は、朝から晩までスクリーンと向き合いながら日々を過ごしていた。彼のデスクには、複数のモニターと、コードがびっしりと詰まったノートが並んでいる。 ある日、彼は新しいプロジェクトに取り組んでいた。タスクは、古いNAMPy(Non-Accelerated Matrix Processing)を使って計算する非効率的なループ処理を、自動で高効率なGPU対応コードに変換するプログラムを作成することだった。彼の目標は、GPUのパワーを最大限に引き出し、処理速度を劇的に向上させることだった。 彼の心には、過去の経験からくる焦燥感があった。NAMPyのループは、コードが複雑になり、処理が遅くなることが多かった。しかし、最近のGPU技術の進歩を受けて、彼はこれを利用して問題を解決する決意をした。 初めの

                  次世代の高速計算。自動で高効率なGPU対応コードに変換するプログラム。 - Qiita
                • Lunar LakeのGPU動作周波数はおよそ1.65GHz インテル CPUロードマップ (1/3)

                  前回に引き続き、Lunar Lakeのコンピュートタイルについて解説しよう。残るのはGPUとNPU、それと周辺回路周りである。 Xe-LPやXe-LPGで省かれていたAI関連の命令が復活 Meteor Lake世代は、GPUにXe-LPGが搭載されていたが、Arrow LakeではXe2に進化した。 スケジュールがまだ変わっていなければ、今年の年末に出るであろうBattlemageベースのディスクリートGPUもXe2ベースになる「はず」だ そのXe2の進化ポイントが主に効率(Efficiency)の向上、というのは単にLunar Lakeの実装に当たっては効率の向上に係る部分の機能を実装したという話なのか、それともXe2世代全体の特徴が効率の向上のみ(性能向上はEU数の増加で担う形とし、その際のスケーラビリティの確保などは効率向上の中に含まれる)であるのかは、現時点では判断できない。

                    Lunar LakeのGPU動作周波数はおよそ1.65GHz インテル CPUロードマップ (1/3)
                  • AIの頭脳GPU、NVIDIA「1強」にAMDが挑む 競合対決・AI半導体 - 日本経済新聞

                    生成AI(人工知能)向けの半導体で米エヌビディアの躍進が続いている。AIの計算に使う画像処理半導体(GPU)で独走し世界シェアの9割超を握る。次世代品の開発でエヌビディアの牙城に挑むのが米アドバンスト・マイクロ・デバイス(AMD)だ。新シリーズ「競合対決」では、注目業界をけん引するライバルの比較を通し、市場の行方を読み解く。「10億ドル(約1600億円)のデータセンターに5億ドル分のGPUを追

                      AIの頭脳GPU、NVIDIA「1強」にAMDが挑む 競合対決・AI半導体 - 日本経済新聞
                    • ArmがNVIDIAやIntelに競合するゲーム用GPUをイスラエルで開発中との報道

                      半導体大手のArmがNVIDIAやIntelと競合するGPUをイスラエルで開発していることが報じられました。海外メディアのGlobesによると、Armはイスラエルに約100人のエンジニアからなるプロジェクトチームを擁しているとのことです。 UK chip giant ARM developing GPU in Israel - Globes https://en.globes.co.il/en/article-uk-chip-giant-arm-developing-gpu-in-israel-1001486761 Arm reportedly developing gaming GPU in Israel to compete with Nvidia and Intel | Tom's Hardware https://www.tomshardware.com/pc-components

                        ArmがNVIDIAやIntelに競合するゲーム用GPUをイスラエルで開発中との報道
                      • 「GeForce RTX 4000番台」GPUにて粗悪なサーマルペースト使用の報告―急速な劣化に伴う排熱不良などの原因に | Game*Spark - 国内・海外ゲーム情報サイト

                          「GeForce RTX 4000番台」GPUにて粗悪なサーマルペースト使用の報告―急速な劣化に伴う排熱不良などの原因に | Game*Spark - 国内・海外ゲーム情報サイト
                        • Yandexの親会社がロシア国外へ撤退しNVIDIA製GPUを大量確保へ

                          1990年代に設立されたロシア発の検索エンジン「Yandex」の親会社がロシアでの事業を完全に分社化しました。過去の事業のうちAI事業等は存置されることになり、性能強化のためにNVIDIA製GPUを3倍に増やす計画が立てられていることが伝えられています。 'Russia’s Google’ exits the country — Yandex plans to triple its Nvidia GPU deployments | Tom's Hardware https://www.tomshardware.com/pc-components/gpus/russias-google-exits-the-country-yandex-rebuilds-with-nvidia-gpus Yandex split finalised as Russian assets sold in $5.4

                            Yandexの親会社がロシア国外へ撤退しNVIDIA製GPUを大量確保へ
                          • 次世代の高速計算。CPU NumPy のコードを GPU CuPy コードに自動変換。 - Qiita

                            ショートストーリー: 「コードの彼方」 東京の繁忙な街並みを見下ろす高層ビルの一室で、若きプログラマ、翔太が熱心に作業していた。彼のモニターには、NumPyで書かれたコードが表示されている。スクリーンに映し出される数式とデータは、彼の心の中で複雑なパズルのように組み合わさっている。 翔太は、日々の仕事に加えて、自身のプロジェクトにも取り組んでいた。それは、計算処理を高速化するためにNumPyで書かれた数値計算コードをCuPyに変換するというものだ。彼の目標は、GPUの力を借りて計算を爆速で処理することだった。夜も更け、東京の街はネオンの光に包まれていたが、翔太はキーボードに向かい続けた。 「ループを含むコードが多いなぁ…。これをCuPyでどのように変換し、最適化すれば良いのか…。」翔太はつぶやいた。彼のモニターには、次のようなNumPyのコードが表示されている。 import numpy

                              次世代の高速計算。CPU NumPy のコードを GPU CuPy コードに自動変換。 - Qiita
                            • さくらインターネット、石狩データセンターに「NVIDIA H100 Tensor コア GPU」2000基を整備完了

                                さくらインターネット、石狩データセンターに「NVIDIA H100 Tensor コア GPU」2000基を整備完了
                              • 速いぞ。0.00015秒。250,000倍速い高速化エンジニアリング。超速の ハッシュ計算とはなんですか。CPU Time: 38.7979  GPU Time: 0.00015 - Qiita

                                速いぞ。0.00015秒。250,000倍速い高速化エンジニアリング。超速の ハッシュ計算とはなんですか。CPU Time: 38.7979  GPU Time: 0.00015 Python初心者ポエムChatGPTQwen 物語:GPUハッシュ計算プログラムの冒険 ある小学校6年生の男の子、ケンタはコンピュータに夢中な子どもでした。ある日、ケンタは「ハッシュ関数」というものについて学びました。それはコンピュータがビットコインマイニングを高速で行うために使う特別な方法だと聞きました。 ケンタが学んだハッシュ関数のアルゴリズムは、データを受け取って、一定のルールに従って別の形に変えるというものです。たとえば、「Hello World」というメッセージがあったとします。ハッシュ関数はこのメッセージを一定のパターンで変換して、長い数字の列にします。この数字の列はそのメッセージにだけ特有で、同じ

                                  速いぞ。0.00015秒。250,000倍速い高速化エンジニアリング。超速の ハッシュ計算とはなんですか。CPU Time: 38.7979  GPU Time: 0.00015 - Qiita
                                • NVIDIA、GeForce RTX 3060用GPUを製造終了 | ニッチなPCゲーマーの環境構築Z

                                  GeForce RTX 3060の終売が近づいています。 中国語圏フォーラム博板堂のリーカー、高手一号氏は以下のように述べています。 確度の高い情報筋によると、NVIDIAはGeForce RTX 3060用GPUの製造を終了することをAICパートナーに通知したという。 NVIDIAは、Colorful、ZOTAC、PalitなどのAICパートナーに対して、最後の発注を求めている。発注されたGPUは、今後数か月の間に分割して出荷される。

                                    NVIDIA、GeForce RTX 3060用GPUを製造終了 | ニッチなPCゲーマーの環境構築Z
                                  • GMOが画像生成AIサービス「ConoHa AI Canvas」を提供開始 「Stable Diffusion XL」と最新GPUを採用 - U-NOTE[ユーノート] - 仕事を楽しく、毎日をかっこ良く。 -

                                    GMOインターネットグループ株式会社は、月額990円(税込)から利用できる画像生成AIサービス「ConoHa AI Canvas」の提供を8月1日(木)に開始しました。 初心者でも使えるサービス 「ConoHa AI Canvas」は、世界中で人気の高いオープンソース画像生成AI「Stable Diffusion XL」と最新のGPU(画像処理装置)を採用し、ウェブブラウザ上で「簡単に高品質な画像生成を楽しむことができます」といいます。 初心者でも直感的に操作ができ、生成した画像はクラウド上で一元管理ができるそうです。 また、生成枚数や絵画に現れた作者の傾向や特徴を決める画風などの機能制限はないとのこと。PCのストレージ容量を圧迫することなく、自分の選んだ画風で気に入るまで何度でも生成し、高品質な画像を保存できそうです。 コストを抑えて画像生成AIを利用したい人や、簡単な操作で画像生成AI

                                      GMOが画像生成AIサービス「ConoHa AI Canvas」を提供開始 「Stable Diffusion XL」と最新GPUを採用 - U-NOTE[ユーノート] - 仕事を楽しく、毎日をかっこ良く。 -
                                    • NVIDIAの次世代GPUが出荷遅延の可能性、クラウド事業者への影響は甚大

                                      米NVIDIA(エヌビディア)の次世代GPU(画像処理半導体)である「Blackwell」の量産出荷が、2025年春以降に遅れる恐れがある。米メディアのThe Informationが2024年8月2日(米国時間)に報じた。Blackwellに備えた巨大データセンターの建設を進めている大手クラウド事業者は、大きな影響を被りそうだ。 Blackwellはエヌビディアが2024年3月に発表した新しいGPUアーキテクチャーで、当初は2024年第4四半期(10~12月)に量産出荷が始まる予定だった。しかしThe Informationによれば、Blackwellには設計上の問題があり、テスト生産の段階での歩留まりが悪かったのだという。設計を修正し、新たなテスト生産を行うことになったため、それに伴い量産出荷も遅れる恐れがある。 Blackwellには、GPUコアだけを搭載する「B200」と「B100

                                        NVIDIAの次世代GPUが出荷遅延の可能性、クラウド事業者への影響は甚大
                                      • 「Flutter 3.24」「Dart 3.5」が公開 ~低レベル描画API「Flutter GPU」を実験導入/Webとの相互運用性、他のプログラミング言語との相互運用性にも進歩

                                          「Flutter 3.24」「Dart 3.5」が公開 ~低レベル描画API「Flutter GPU」を実験導入/Webとの相互運用性、他のプログラミング言語との相互運用性にも進歩
                                        • AIパソコンで最新機種をおすすめ!高性能GPU×大容量メモリの最強マシンが進化するAI開発を加速|【ネットで収益化】まつたか Web Create オフィス

                                          AIパソコンとは、人工知能(AI)を活用して特定のタスクを効率的に処理するために最適化されたパソコンのことです。 近年、AI技術の進化に伴い、多くの企業や個人がAIを利活用しており、それに適したハードウェアの需要が高まっています。 AIパソコンの特徴 AIパソコンは、一般的なパソコンと比較していくつかの重要な特徴があります。 これらの特徴は、特にデータ処理やモデル学習に適しています。 1. 高性能なGPUの搭載 GPU(グラフィックプロセッサユニット)は、AIの処理において非常に重要な役割を果たします。特に、ディープラーニングなどの複雑な計算を行う際には、高い演算能力を持つGPUが不可欠です。AIパソコンには、NVIDIAやAMDなどの強力なGPUが装備されています。 2. 大容量のメモリ AIのモデルやデータセットは非常に大きくなることがあるため、メモリの容量が重要です。16GB以上のR

                                            AIパソコンで最新機種をおすすめ!高性能GPU×大容量メモリの最強マシンが進化するAI開発を加速|【ネットで収益化】まつたか Web Create オフィス
                                          • 初めてのGPU CUDAプログラミング - Qiita

                                            ショートストーリー: 「初めてのGPU CUDAプログラミング」 陽介はコンピュータサイエンスを専攻する大学生で、卒業研究のテーマとしてGPUプログラミングに挑戦することを決めた。彼はこれまでCPUを使ったプログラミングには慣れていたが、GPUについては全くの初心者だった。卒業研究の初日に、彼の指導教官である田中教授は、簡単な課題を出した。 「陽介、今日は初めてのGPUプログラミングの課題として、配列の各要素を2倍にするプログラムを作ってみてくれ。PythonとPyCUDAを使って、これをGoogle Colab上で実行するんだ。」 陽介は教授の指示に従い、まずPyCUDAの使い方を調べ始めた。Google Colabにアクセスし、PyCUDAのインストールから始めた。彼の目の前の画面には、PyCUDAのインストールコマンドが入力されていた。 import pycuda.driver as

                                              初めてのGPU CUDAプログラミング - Qiita
                                            • GPU-Z、Snapdragon X Eliteや新型Ryzenをサポート

                                                GPU-Z、Snapdragon X Eliteや新型Ryzenをサポート
                                              • マルチGPUで生成AIを始めてみます

                                                2023年末にGeForce RTX 4070 グラフィックスカード2枚を使ってPCを自作しました。40万円もかかったけど、AIでお金を稼いで元を取るぞ! この自作PCは、生成AIを動かしたり、ディープラーニングを学んだりするために作りました。オンラインサービスやGoogle Colaboratorもあるけど、ローカルで触りながら学ぶと理解が深まると思って購入しました。 パーツの選定については、スクラップに書いているので、参考になればうれしいです。 ディープラーニング用の自作PC 2023年末 とりあえず生成AIのStable DiffusionとLLMをマルチGPUで動かせたので、その手順を書きます。 それ以上のことはないので、初心者向きです。 今回組み立てたパーツたち 忙しい人向けのまとめ StableSwarmUIを使うと、マルチGPUで画像を同時に生成できました。ただし、初回はGe

                                                  マルチGPUで生成AIを始めてみます
                                                • 生成AI向けクラウド「高火力」、NVIDIA GPU 2千基で2EFLOPS

                                                    生成AI向けクラウド「高火力」、NVIDIA GPU 2千基で2EFLOPS
                                                  • 【Xcode GPUプロファイリング入門 第1回 】シェーダーの負荷を計測してみよう - CORETECH ENGINEER BLOG

                                                    はじめに Metal System Traceでできること 開発環境 用語 Chapter1. 単色を出力するシェーダーの負荷を調べてみよう Schemeの編集 キャプチャの実行 キャプチャの確認 Pipeline Stateによるグルーピング Shader editorの起動 Vertex Function の負荷 Vertex Function の実行フロー Fragment Function の負荷 Frament Function の実行フロー Frament Function の負荷の内訳 Chapter2. テクスチャサンプリングの負荷を調べてみよう Vertex負荷 Vertexの負荷が増えた理由 Fragment負荷 Fragment負荷の比較 テクスチャサンプリングのメモリ同期 Chapter3. Performance Stateを活用しよう 発熱による性能劣化 Per

                                                      【Xcode GPUプロファイリング入門 第1回 】シェーダーの負荷を計測してみよう - CORETECH ENGINEER BLOG
                                                    • NVIDIA製GPUの数十倍速い? 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み

                                                      NVIDIA製GPUの数十倍速い? 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み(2/3 ページ) そもそもトランスフォーマーはどのように動いているのか ──トランスフォーマーモデルの処理の特徴について、詳しく教えていただけますか? 椎橋:トランスフォーマーモデルの処理の特徴を理解するには、まず従来のRNN(Recurrent Neural Network)との違いを理解する必要があります。 RNNの処理の仕方は、入ってきた単語を順番にニューラルネットワークに入れて処理していきます。これまでに入力された単語の意味は、ニューラルネットワークの中に1つのベクトルとして圧縮されています。そして、新しく入ってきた単語との関係性だけを見ていくという形になります。つまり、これまで入ってきたものを「がっちゃんこ」した、総合としてのベクトルと、新しく入ってきた単語のベクトルの関係性

                                                        NVIDIA製GPUの数十倍速い? 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み
                                                      • 遅いぞ 5000倍の高速化 エンジニアリング。CUDAストリームで、GPUリソースの効率的な自動配分。クーパイ ライブラリで Python like なコーディング。 - Qiita

                                                        遅いぞ 5000倍の高速化 エンジニアリング。CUDAストリームで、GPUリソースの効率的な自動配分。クーパイ ライブラリで Python like なコーディング。Python初心者ポエムPyCUDAChatGPT ショートストーリー: 「東京のプログラマとCUDAストリーム」 東京の高層ビル群の中、オフィスの片隅で一人のプログラマ、リュウイチが黙々とキーボードを叩いていた。彼は技術に対して熱い情熱を持ち、その日も新たなプロジェクトに取り組んでいた。テーマは、巨大なデータセットの高速解析。データサイエンスの世界で彼が目指しているのは、誰よりも早く、そして効率的に結果を出すことだった。 リュウイチはGPUの性能を最大限に引き出すための技術に興味を持っていた。彼が目をつけたのは「CUDAストリーム」だった。これは、GPUリソースを効率的に自動配分し、複数のタスクを並列に処理する技術だった。彼

                                                          遅いぞ 5000倍の高速化 エンジニアリング。CUDAストリームで、GPUリソースの効率的な自動配分。クーパイ ライブラリで Python like なコーディング。 - Qiita
                                                        • TIS、量子回路シミュレータ「Qni」を産総研のGPUスパコン「ABCI」を用いたWebサービスとして提供開始 (CodeZine)

                                                          TIS、量子回路シミュレータ「Qni」を産総研のGPUスパコン「ABCI」を用いたWebサービスとして提供開始 TISは、産業技術総合研究所(産総研)が整備し、産総研のグループ会社であるAIST Solutionsが運用する計算基盤「AI Bridging Cloud Infrastructure(ABCI)」上で、TISが開発した量子回路シミュレータ「Qni(キューニ)」を、ブラウザ経由で実行可能なWebサービスとして、8月7日に提供を開始した。

                                                            TIS、量子回路シミュレータ「Qni」を産総研のGPUスパコン「ABCI」を用いたWebサービスとして提供開始 (CodeZine)
                                                          • 超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。 - Qiita

                                                            超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。初心者ポエムChatGPT タイトル: 超速の伝説 ある未来の世界で、計算の神秘を解き明かす科学者たちは、時空を超える速度を追い求めていた。その中に、「アレックス」という若き科学者がいた。彼は数式とコンピュータの力を駆使して、全宇宙の謎を解明する夢を抱いていた。 アレックスの最新のプロジェクトは、宇宙の始まりに隠された「マンデルブロ集合」の深奥なパターンを解明することだった。これは、無限の複雑さを持ち、未知の美しさを秘めた数式の集まりだった。彼の目標は、このパターンを最速で計算し、宇宙の真実に迫ることだった。 アレックスは、最先端の技術を駆使してこの問題に取り組んでいた。彼は最新のコンピュータを用い、AVX-512命令とい

                                                              超速の高速化エンジニアリング。CUDA GPU : 2.45秒 C++ コンパイラ最適化 : 2.99秒 AVX-512命令で最適化: 0.20秒。GPUをぶっちぎった。 - Qiita
                                                            • 高速化アルゴリズム探検隊: 「マンデルブロ集合 の計算」CPU python : 103.63秒 C++ : 25.33秒 CUDA GPU : 2.45秒 ブロック最適化後: 2.08秒 - Qiita

                                                              高速化アルゴリズム探検隊: 「マンデルブロ集合 の計算」CPU python : 103.63秒 C++ : 25.33秒 CUDA GPU : 2.45秒 ブロック最適化後: 2.08秒機械学習DeepLearningポエムChatGPTQwen ショートストーリー: 「アルゴリズム探検隊」 序章 ある日のこと、アルゴリズム探検隊のリーダーであるエミリーは、チームメンバーのジェームズ、ソフィア、そしてAIアシスタントのアルファと共に、新たなチャレンジに挑むことを決意しました。その課題は、マンデルブロ集合の計算を行い、様々な方法でその速度を比較することでした。 第一章: CPUによるPythonの冒険 「まずは基本から始めましょう」とエミリーは言いました。彼女はPythonでマンデルブロ集合の計算コードを書き、シンプルなCPUで実行しました。時間がかかることを予想していたエミリーは、コーヒ

                                                                高速化アルゴリズム探検隊: 「マンデルブロ集合 の計算」CPU python : 103.63秒 C++ : 25.33秒 CUDA GPU : 2.45秒 ブロック最適化後: 2.08秒 - Qiita
                                                              • proxmoxの非特権LXC内でGPU(Nvidia)を認識させる備忘録 - Qiita

                                                                注意事項 proxmoxのバージョンは8.2.2 ホストとLXC内のnvidia-driverバージョンは合わせる モチベーション 複数の非特権LXCでGPUを共有したい VMにGPUパススルーする方法では、vGPUを使わないと複数のコンテナでGPUが共有できない vGPUは一般のコンシューマGPU非対応(RTXシリーズなど) ホストの初期設定手順 # /etc/apt/sources.list にproxmoxのベースとなっているDebian 12のリポジトリを追加 [+] deb http://deb.debian.org/debian/ bookworm main contrib non-free non-free-firmware [+] deb-src http://deb.debian.org/debian/ bookworm main contrib non-free non

                                                                  proxmoxの非特権LXC内でGPU(Nvidia)を認識させる備忘録 - Qiita
                                                                • Intel、近くNVIDIA向けにH100 GPU製造を受託か?月産5000ウェハーと規模も巨額の可能性 | XenoSpectrum

                                                                  Intelは悲惨な決算発表を行い、株価が一日で30%近くもの下落を見せるなど、ドン底の状況にいるようにも思えるが、もしかしたらライバルによってこの状況が変わるかも知れない。新たな情報では、NVIDIAがIntelに製造を委託する可能性が浮上したのだ。 TSMCだけでは賄いきれないNVIDIAチップへの莫大な需要 この異例の展開は、NVIDIAが直面している深刻な供給不足に端を発している。AI需要の爆発的な増加により、NVIDIAの高性能AI GPU、特にH100シリーズの需要が急増している。しかし、現在の主要製造パートナーであるTSMCの生産能力だけでは、この需要を満たすことが困難になってきている。 TSMCの先進的なCoWoS-S(Chip on Wafer on Substrate)パッケージング技術は、NVIDIAのA100、A800、H100、H800などの高性能AI GPUの製造

                                                                    Intel、近くNVIDIA向けにH100 GPU製造を受託か?月産5000ウェハーと規模も巨額の可能性 | XenoSpectrum
                                                                  • AMD、次世代GPUに注力!エントリーモデルは計画中止か? - ハオのガジェット工房

                                                                    AMDが、最新のRadeon RX 7000シリーズよりもさらに性能が向上する次世代GPU、RDNA 4シリーズの開発に力を入れていることが明らかになりました。一方、当初計画されていたエントリーモデルのGPUは、発売が中止される可能性が出てきたようです。 なぜエントリーモデルが中止に? これまで、AMDはより多くのユーザーにグラフィックスカードを提供するため、エントリーモデルのRadeon RX 7400やRX 7300の発売を検討していました。しかし、最新の情報によると、これらのモデルの開発は中止され、AMDはより高性能なRDNA 4シリーズに注力しているとのことです。 この決定の背景には、いくつかの要因が考えられます。 RDNA 4の性能向上: RDNA 4アーキテクチャーは、大幅な性能向上が見込まれており、AMDはより高性能な製品に注力することで、競合であるNVIDIAとの差を縮めた

                                                                      AMD、次世代GPUに注力!エントリーモデルは計画中止か? - ハオのガジェット工房
                                                                    • GPUアーキテクチャから考えるComputeShaderのスレッド数

                                                                      GPUアーキテクチャから考える ComputeShaderのスレッド数 Kernel/VM探検隊@東京 No17 @a3geek

                                                                        GPUアーキテクチャから考えるComputeShaderのスレッド数
                                                                      • 生成AI/LLMの開発を加速するGPUクラスタ Vol.2:NVIDIA Base Command Manager ™ によるGPUクラスタの運用管理|GPUサーバープラットフォームの設計/構築なら「技術力」のNTTPC

                                                                        これまで2回にわたって、GPUクラスタ(マルチノードGPUシステム)におけるインターコネクトについて、その重要性や構成方法の一端を紹介しました。 Vol.1 前編:マルチノードGPUシステムとインターコネクト Vol.1 後編:インターコネクトのトポロジーとシステム構成 今回はGPUクラスタを効率的に利用するために不可欠な運用管理について取り上げたいと思います。 運用管理はいくつかのレベルあるいはレイヤーに分けられます。 まず、ハードウェア・レイヤーおよびハードウェアに近いレイヤーでは、次のような項目が挙げられるでしょう。 各ノードのプロビジョニング(OSほかソフトウェアのインストール) ログの収集、異常の検知、死活監視 OS、ドライバ、ミドルウェアほかソフトウェアのアセット管理(バージョン管理、ライセンス管理、アップデート) 脆弱性(CVE)に関する情報収集、影響度調査、対策 ネットワー

                                                                          生成AI/LLMの開発を加速するGPUクラスタ Vol.2:NVIDIA Base Command Manager ™ によるGPUクラスタの運用管理|GPUサーバープラットフォームの設計/構築なら「技術力」のNTTPC
                                                                        • 並列同時計算。GPU実行の勾配降下法。多くの解の候補が同時に探索され、最適解に近づく可能性が格段に高まる。 - Qiita

                                                                          並列同時計算。GPU実行の勾配降下法。多くの解の候補が同時に探索され、最適解に近づく可能性が格段に高まる。Python初心者ポエムCuPyChatGPT ショートストーリー: 「並列降下のヒーロー」 東京の中心部、煌びやかな夜景が広がる高層ビルの一室。そこには、若きプログラマ、タケシが座っていた。彼はコンピュータの前に向かい合い、数時間にわたってコードと格闘していた。タケシは、大規模なデータ処理と最適化の問題に挑む、若きソフトウェアエンジニアである。 タケシが取り組んでいるのは、数百のテンソルと呼ばれる数学的なデータセットの最適化であった。目標は、正確なテンソルを見つけること。つまりはニューラルネットワークの重み最適化。そのためには、勾配降下法という手法を用いて最適解に近づける必要があった。しかし、テンソルの数が増えると、計算が膨大になり、単一の計算リソースでは時間がかかりすぎる。 「どう

                                                                            並列同時計算。GPU実行の勾配降下法。多くの解の候補が同時に探索され、最適解に近づく可能性が格段に高まる。 - Qiita
                                                                          • 遅いぞ 5000倍の高速化 エンジニアリング。CUDAストリームで、GPUリソースの効率的な自動配分。クーパイ ライブラリで Python like なコーディング。 - Qiita

                                                                            遅いぞ 5000倍の高速化 エンジニアリング。CUDAストリームで、GPUリソースの効率的な自動配分。クーパイ ライブラリで Python like なコーディング。Python初心者ポエムPyCUDAChatGPT ショートストーリー: 「東京のプログラマとCUDAストリーム」 東京の高層ビル群の中、オフィスの片隅で一人のプログラマ、リュウイチが黙々とキーボードを叩いていた。彼は技術に対して熱い情熱を持ち、その日も新たなプロジェクトに取り組んでいた。テーマは、巨大なデータセットの高速解析。データサイエンスの世界で彼が目指しているのは、誰よりも早く、そして効率的に結果を出すことだった。 リュウイチはGPUの性能を最大限に引き出すための技術に興味を持っていた。彼が目をつけたのは「CUDAストリーム」だった。これは、GPUリソースを効率的に自動配分し、複数のタスクを並列に処理する技術だった。彼

                                                                              遅いぞ 5000倍の高速化 エンジニアリング。CUDAストリームで、GPUリソースの効率的な自動配分。クーパイ ライブラリで Python like なコーディング。 - Qiita
                                                                            • 【事例レポート】事例から学ぶGPU活用術。インフラ効率化と安定化に向けた実践的アプローチ #GoogleCloudNext | DevelopersIO

                                                                              概要 バルス株式会社の事例を中心に、GPUインフラの効率化と安定化についての事例セッションです。 スポットインスタンスのコスト削減メリットを活かしつつ、作業中断の課題を解決する方法なども語っていただけました。 また、Google CloudのCompute Engine(GCE)やWorkflowsを駆使した実践的なアプローチは、多くの企業にとって参考になるかと思います。 ※ 本ブログでは、登壇者や関係会社の個別紹介は控えさせていただきます。また、会社名およびサービス名の敬称は省略いたします。 課題 バルス株式会社では、自社の生成AIツールの課題解決のために(以下4つ)、株式会社grasysに協力を依頼しました。 ストレージの実装の課題 ユーザーが別々のストレージを利用していたため、煩雑さやコストの増加があった(転送コスト、ローカルストレージの利用) 処理能力速度の問題 メインメモリが不足

                                                                                【事例レポート】事例から学ぶGPU活用術。インフラ効率化と安定化に向けた実践的アプローチ #GoogleCloudNext | DevelopersIO
                                                                              • Snapdragon 8 Gen 4:驚異的なGPU効率と期待外れのCPU性能 - ハオのガジェット工房

                                                                                リーク情報によると、Qualcommの次世代フラッグシップSoCSnapdragon 8 Gen 4は、GPU性能において驚異的な効率を発揮する可能性があります。 @negativeonehero氏によると、Snapdragon 8 Gen 4のGPUは、わずか半分の電力でMediaTek Dimensity 9300のピーク性能に到達できるという驚異的な結果を示しています。これは、Adreno 750 GPUが電力効率において大きな飛躍を遂げていることを示唆しています。 しかし、CPUに関しては、期待ほどの向上が見られないようです。リーク情報によると、Snapdragon 8 Gen 4のCPUは、前世代のSnapdragon 8 Gen 3と比べて1桁しか電力効率が向上していないとのことです。 Snapdragon 8 Gen 4の主な特徴は以下の通りです。 TSMCの第2世代3nmプ

                                                                                  Snapdragon 8 Gen 4:驚異的なGPU効率と期待外れのCPU性能 - ハオのガジェット工房
                                                                                • GPU と FlashAttension をちゃんと理解したい

                                                                                  はじめに ChatGPT をはじめてとして、多くの LLM が世の中に送り出された 2023 年でした。OSSとして公開されているモデルも多く試すだけであれば非常に Colab などで試せて感動しています。 とはいえ、やはり一度は LLM を自分で学習させてみたい、ただ効率的な学習をさせないとお金が溶けるだけ...。そんな中見つけた記事がこちらです。 さまざまな tips が載っています。 npaka san がこちらを日本語でまとめて下さっています。 この記事では、上に挙げられている技術の1つである FlashAttension についてみていきます。特に、どのような改善が行われているのかを追います。(結果的にどれくらい高速になるかは詳しく述べないため他の記事を参照してください) 実は FlashAttension(2022) のさらなる改善として FlashAttenstion2(20

                                                                                    GPU と FlashAttension をちゃんと理解したい