並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 28 件 / 28件

新着順 人気順

GPGPUの検索結果1 - 28 件 / 28件

  • Mac やめて Linux PC を自作した - IT戦記

    みなさまお元気ですか 暑さも少し落ち着いてきて、ようやく外に出てもいいかなという気になってきました。季節の変わり目体調には気をつけていきたいですね。 実は、一ヶ月くらい前に Linux PC を自作して Mac から移行しました。そのときの考え、その後の感想を残しておきます。 また、学んだことや作業のログを細かく残しておきたいと思います。(どこかの誰かが不安に思ったときに同じ失敗や疑問を経験した人がいて安心してもらえたら嬉しい) Ubuntu のインストール画面 (ベストオープンソースと開発しよう!) 目次 Mac をやめるきっかけ、経緯 Ubuntu に移行して一ヶ月の感想 おまけ1: どのような PC になったか おまけ2: 事前に学んだこと おまけ3: PC の組み立て おまけ4: Ubuntu のセットアップ 加筆/修正 指摘のあった誤字を修正 NVEnc について誤った内容があっ

      Mac やめて Linux PC を自作した - IT戦記
    • 西川善司の3DGE:チーフアーキテクトが語った「PS5 Pro」の秘密とは? レイトレーシングの強化点や超解像機能に注目だ

      西川善司の3DGE:チーフアーキテクトが語った「PS5 Pro」の秘密とは? レイトレーシングの強化点や超解像機能に注目だ ライター:西川善司 Mark Cerny(マーク・サーニー)氏 去る2024年12月19日,ソニー・インタラクティブエンタテインメント(以下,SIE)は,PlayStationハードウェアのリードアーキテクトであるMark Cerny(マーク・サーニー)氏による動画「PS5 Pro Technical Seminar at SIE HQ」を公開した。 非常に興味深い内容であったので,本稿で深掘りしてみよう。なお,筆者によるPS5 Proの実機評価や技術的側面の考察については,前回の記事を参照してほしい。 PS5 ProのGPUがRDNA 3を採用しなかった理由とは? 動画の冒頭でCerny氏は,「PS5 Proでは,ゲーム体験を変えるつもりはなかった」「PS5 Pro

        西川善司の3DGE:チーフアーキテクトが語った「PS5 Pro」の秘密とは? レイトレーシングの強化点や超解像機能に注目だ
      • 西川善司の3DGE:PS5 Proの実像をテクニカルプレゼンテーションから考察してみる

        西川善司の3DGE:PS5 Proの実像をテクニカルプレゼンテーションから考察してみる ライター:西川善司 Sony Interactive Entertainment(以下,SIE)は,2024年9月11日に,「PlayStation 5」の上位機にあたる「PlayStation 5 Pro」を2024年11月7日に発売すると発表した(関連記事)。 テクニカルプレゼンテーションの動画内で明かされた情報はそれほど多くはなかった。それでも重要なキーワードはいくつかあったので,そのあたりをヒントにして,筆者独自の考察も加えつつ,詳しく見ていくことにしたい。 Proモデルは「体験の進化」ではなく「映像のグレードアップ」 PlayStation 4を開発していた頃から,PSハードウェア仕様を監督する「リードアーキテクト」に就任したSIEのMark Cerny(マーク・サーニー)氏には,筆者も直接取

          西川善司の3DGE:PS5 Proの実像をテクニカルプレゼンテーションから考察してみる
        • 「ゼロからGPU開発」に経験なし&わずか2週間で成功した猛者が登場

          コードなしでWeb3コンテンツなどを開発することができるプラットフォーム・thirdwebの創設者であるadammaj氏が、「経験なしで2週間でゼロからGPUを構築した」と報告しています。 I've spent the past ~2 weeks building a GPU from scratch with no prior experience. It was way harder than I expected. Progress tracker in thread (coolest stuff at the end)👇 pic.twitter.com/VDJHnaIheb— adammaj (@MajmudarAdam) April 25, 2024 ◆ステップ1:GPUアーキテクチャの基礎を学ぶ adammaj氏はまず、最新のGPUがアーキテクチャレベルでどのように機能してい

            「ゼロからGPU開発」に経験なし&わずか2週間で成功した猛者が登場
          • CUDAのコードを全く変更せずにAMD製GPU向けにコンパイルできるツールキット「SCALE」が登場

            イギリスのスタートアップ「Spectral Compute」社がCUDAのプログラムを全く変更することなくAMD製GPUで実行できるようにコンパイルするツールキット「SCALE」を開発したと発表しました。 SCALE GPGPU Programming Language https://scale-lang.com/ Announcing the SCALE BETA https://scale-lang.com/posts/2024-07-12-release-announcement Spectral ComputeのCEOであるマイケル・ソンダーガード氏は「一度コードを記述すればあらゆるハードウェアプラットフォームでビルド・実行できるべき」「CPUでは長年実現されてきたのに、なぜGPUでは実現できないのか?」とSCALEの開発に至った経緯を説明。 SCALEはNVIDIAのCUDAツ

              CUDAのコードを全く変更せずにAMD製GPU向けにコンパイルできるツールキット「SCALE」が登場
            • [GDC 2025]AMDのFSR 2をARMが魔改造!? 「ARM Accuracy Super Resolution」はモバイルゲーミングの救世主となるか

              [GDC 2025]AMDのFSR 2をARMが魔改造!? 「ARM Accuracy Super Resolution」はモバイルゲーミングの救世主となるか ライター:西川善司 超解像に頼らざるを得ないゲームグラフィックス テレビやディスプレイの解像度は3840×2160ピクセル……いわゆる4K解像度にまで到達した。ゲームグラフィックスも,PS4世代から4Kに対応している。ただ,現行のPS5/PS5 Pro世代になっても,描画実解像度を4Kに想定したタイトルは少数派だ。現在の多くの家庭用ゲームのグラフィックスは,4K未満の解像度で描画し,これを4K解像度にアップスケールして表示する方式が主流となっている。 アップスケール処理には,単なる線形補間主体の解像度変換処理ではなく,「失われた解像度情報を復元していこう」とするアップスケール技術「超解像処理」(Super Resolution)が用

                [GDC 2025]AMDのFSR 2をARMが魔改造!? 「ARM Accuracy Super Resolution」はモバイルゲーミングの救世主となるか
              • 言語モデルを高位合成でFPGAに実装してみた

                言語モデルを高位合成でFPGAに実装してみた Turing株式会社のリサーチチームでインターンしているM1の内山です。 Turing株式会社では大規模基盤モデルによる完全自動運転を目指しており、その実現に欠かせない技術として大規模言語モデルの研究開発を行っています。 Generative AI LLMの広範な知識と思考能力に加え、視覚情報やセンサーデータなどの多様な入力を受け入れることで、車の周囲の状況を正確に認識します。さらに、世界モデルを適用することで、高度な空間認知と身体性を獲得し、実世界に対応した生成AIを実現します。 https://tur.ing/ より引用 しかしながら、従来の大規模モデルはデータセンターという大量のGPU・潤沢な電源・安定した地盤を備えた豊かな環境で処理されるものであり、対して自動車というものは余りにも狭く、電源が乏しく、振動が大きいという劣悪極まりない環境

                  言語モデルを高位合成でFPGAに実装してみた
                • 文化的特異点の到来 / Claude3.7-coder使ってみた|shi3z

                  ずっとClaudeが好きだったのに、最近o3-miniに浮気していた。 ところがClaudeが帰ってきた!3.7という控え目なバージョンナンバーとともに。 特筆すべきはダントツのコーディング能力 もうええでしょうo3-miniとの比較がないのでこれだけで一概には言えないが、そもそもo1-proの段階で僕の3Dコーディング能力を超えていたので、どのくらい凄いものか探ってみることにした。 Memeplexでアルファテスト中のコーディング機能を試験的に対応させた。「/claude」をつけるとClaude-3.7でコードを書いてくれる。 Claude-3.7が吐き出すコードは結構癖があるなという感じだが、効果は抜群。想像することも難しかったような4Dマンデルブロ集合を一発で書いてくれた。しかもリアルタイム処理で。 しかしもはや4Dマンデルブロなど書いたことがない俺には、これが正しいのかどうかもわか

                    文化的特異点の到来 / Claude3.7-coder使ってみた|shi3z
                  • 「ホワイトカラーの領域が急速にリプレイスされている」 中山心太氏が考える、生成AIとLLMで起きている革命 | ログミーBusiness

                    田中邦裕氏の自己紹介司会者:みなさま、お待たせしました。これより再び特別企画をお送りします。2つ目の特別企画は、「生成AI/LLM未踏的ビジネス活用最前線」と題してお届けします。なお、本セッションでは視聴者からの質問を受けます。質問は「Slido」というコミュニケーションツールを使用します。 それでは、登壇者のみなさま、ステージへお願いします。みなさま、拍手でお迎えください。 (会場拍手) ここからの進行は未踏IT人材発掘・育成事業プロジェクトマネージャーの田中さんにお願いします。よろしくお願いします。 田中邦裕氏(以下、田中):はい、みなさま、セッションにお越しいただきありがとうございます。タイトルが「生成AI/LLM未踏的ビジネス活用最前線」ということで、お届けしたいと思います。では、さっそくですが、パネラーの方の紹介をしたいと思います。 まず中山さんから……。あっ、自己紹介か。忘れて

                      「ホワイトカラーの領域が急速にリプレイスされている」 中山心太氏が考える、生成AIとLLMで起きている革命 | ログミーBusiness
                    • 「開発コミュニティに寄り添ったUnityをもう一度呼び戻す」 新CEOが語るUnityの現状と「Unity 6」の新機能

                      「開発コミュニティに寄り添ったUnityをもう一度呼び戻す」 新CEOが語るUnityの現状と「Unity 6」の新機能 ライター:西川善司 Unity TechnologiesのCEO,Matthew Bromberg氏 去る2024年9月19日,ゲームエンジン「Unity」の開発元であるUnity Technologiesは,スペイン・バルセロナ市で開発者向けカンファレンス「Unite 2024」を開催した。 初日には,2024年5月に新CEOとして就任したばかりのMatthew Bromberg氏による基調講演が行われ,Unityの現状と今後についての話題が語られた。本稿では,この基調講演の概要をお届けする。 混迷のUnity。新CEOが就任挨拶 Bromberg氏は2012年から2016年まで,Electronic Artsで上級副社長としてモバイルゲーム事業を統括し,そののち,2

                        「開発コミュニティに寄り添ったUnityをもう一度呼び戻す」 新CEOが語るUnityの現状と「Unity 6」の新機能
                      • WebGPU で実装したリアルタイム 3D 流体シミュレーションの紹介

                        ブラウザ上で動作するリアルタイム 3D 流体シミュレーションを,WebGPU を使って実装しました. Demo(WebGPU に対応したブラウザが必要です.) Repository Demo Video 本記事では,主に以下の 3 つについて説明します. シミュレーションの実装に WebGPU を使った理由 流体の運動をシミュレーションするのに用いた SPH 法 特に,GPU 上での近傍探索の高速化について詳しく説明します. 水面のレンダリングに用いた Screen-Space Rendering WebGPU を実装に使った理由 このシミュレーションでは,水面のレンダリングには WebGPU の頂点シェーダー・フラグメントシェーダーを,SPH 法の計算にはコンピュートシェーダーを用いています.今回,実装言語として WebGPU を用いたのは,なんといってもコンピュートシェーダーを使ってみ

                          WebGPU で実装したリアルタイム 3D 流体シミュレーションの紹介
                        • 「Ryzen AI 300」とはどんなプロセッサなのか。高効率Zen 5cコアに新世代NPUとPS5を超えるGPUを組み合わせる[西川善司の3DGE]

                          「Ryzen AI 300」とはどんなプロセッサなのか。高効率Zen 5cコアに新世代NPUとPS5を超えるGPUを組み合わせる[西川善司の3DGE] ライター:西川善司 COMPUTEX TAIPEI 2024で基調講演を行うAMD CEOのLisa Su氏。Ryzen 9000よりも,Ryzen AI 300の紹介に時間を割いていた 2024年6月3日にAMDは,Zen 5アーキテクチャを採用した新Ryzenである「Ryzen 9000」シリーズを発表したわけだが,Zen 5アーキテクチャを採用したCPUは,Ryzen 9000シリーズだけではない。ノートPC向けAPUの「Ryzen AI 300」シリーズも,同時に発表しているのだ。APUであるので,「高性能なCPU」と「高性能なGPU」を統合したSoC(System-on-a-Chip)である。 そのうえ,名称に「AI」と付いている

                            「Ryzen AI 300」とはどんなプロセッサなのか。高効率Zen 5cコアに新世代NPUとPS5を超えるGPUを組み合わせる[西川善司の3DGE]
                          • 第288回 人工知能時代には必須か? 最近、プロセッサに搭載されている「NPU」って何

                            最近、プロセッサに「NPU」と呼ばれる人工知能(AI)処理に特化したユニットが搭載されるのがちょっとしたブーム(?)になっている。このNPUって、GPUなどと何が違うのか、なぜプロセッサに搭載されるようになってきたのか解説しよう。 プロセッサに搭載されている「NPU」って何? Intelの最新プロセッサ「Core Ultra」には、人工知能(AI)処理に特化した「NPU」が搭載されている。NPUは、スマートフォン向けのプロセッサにも搭載が進んでいる。ところで、このNPUはCPUやGPUと何が違うのだろうか? 写真は、Intelのプレスリリース「AI PCの新時代の到来を告げるインテル Core Ultra プロセッサー」のCore Ultraプロセッサーの写真を使って、「CPU」「GPU」「NPU」の文字を載せたもの。 今回のお題は「NPU」である。出だしから注釈になってしまうが、NPUと

                              第288回 人工知能時代には必須か? 最近、プロセッサに搭載されている「NPU」って何
                            • 負荷を抑えて高品質? スマホゲームのグラフィックスを進化させるためにゲームエンジン「Frostbite」が取り組む「FP16化」とは

                              負荷を抑えて高品質? スマホゲームのグラフィックスを進化させるためにゲームエンジン「Frostbite」が取り組む「FP16化」とは ライター:西川善司 2024年3月に行われたGDC 2024で,「FP16 Shaders in Frostbite」という一風変わったテーマを掲げていたセッションがあった。 簡単に言えば,Electronic Arts(以下,EA)の独自開発ゲームエンジン「Frostbite」で,16bit浮動小数点数(FP16)を徹底活用して性能を改善できるか検討したというものだ。 セッションを担当したAlexis Griffin-Lira氏(Software Engineer,Frostbite. EA)。Frostbiteエンジン開発チームの一員だ 近代ゲームグラフィックスでは,頂点シェーダが扱うジオメトリ(幾何学)的な演算において,単精度と呼ばれる32bit浮動小

                                負荷を抑えて高品質? スマホゲームのグラフィックスを進化させるためにゲームエンジン「Frostbite」が取り組む「FP16化」とは
                              • 計算器で自然をする方法 自然を計算器にする方法 - 補遺

                                はじめに 展示作品について(ざっくり) 専攻とあんま関係ない学会に行くと楽しいぜ。 非同期同調セルオートマトン ミナミコメツキガニと熱湯風呂 カオスの縁は綱渡り 選ばれしセルオートマトンたち 非同期同調セルオートマトンと拡張されたカオスの縁 リザバーコンピューティング 水面をのぞき込み、過去に投げ入れられた石を知る 自然計算器、誕生 計算器自然計算 余談: 計算器自然計算器自然計… 作品解説(詳細) 1. 人工生態系 2. 仮想神経ネットワーク 3. 物理空間とのインプット・アウトプット 4. 人工生態系をリザバーとしたリザバーコンピューティング(未実装) 表現方面の話 メディアアート計算 その他 あとがき 脚注/引用 はじめに こんにちは、避雷です。クマ財団のグループ展「Kuma Experiment」 第3弾「意外とハートフル」が終わりました。避雷は8期生として採択され、今年一年色々と

                                  計算器で自然をする方法 自然を計算器にする方法 - 補遺
                                • 第825回 ローカルLLMの実行ツールであるOllamaをUbuntuで動かす | gihyo.jp

                                  ChatGPTをはじめとした生成AIにおけるここ数年の勃興は語るまでもありません。特にユーザーからの自然言語による対話をもとに文章を生成する仕組みは、すでに趣味や研究の範囲を超えて各分野の業務でも広く使われるようになりつつあります。その自然言語の理解と文章の生成に貢献している概念のひとつが、「⁠LLM(Large Language Model:大規模言語モデル)」です。現在ではChatGPTで使われているGPTシリーズだけでなく、GoogleのGeminiやAnthropicのClaudeなど、規模の大小、目的問わずさまざまなLLMが登場しています。 今回はそんなLLMのうち個人でも利用可能で軽量なモデルの入門として、まずはUbuntu上で動かす方法について紹介しましょう。 図1 ollamaとOpen WebUIを使えばChatGPTっぽいUIからローカルLLMを使える ローカルLLMの

                                    第825回 ローカルLLMの実行ツールであるOllamaをUbuntuで動かす | gihyo.jp
                                  • AIがゲーム攻略情報でプレイをお助け? PCのチューニングまで面倒を見てくれる「Project G-Assist」は何ができるのか

                                    AIがゲーム攻略情報でプレイをお助け? PCのチューニングまで面倒を見てくれる「Project G-Assist」は何ができるのか ライター:西川善司 COMPUTEX 2024の開幕直前である6月1日,NVIDIAは,CEOであるJensen Huang(ジェンスン・フアン)氏による基調講演を行った。その内容は,エンタープライズ向けGPUサーバーやGPGPU関連製品が中心で,民生向け製品に関連する発表や言及は非常に少なかった。 では,COMPUTEX 2024において,NVIDIAのブース展示がエンタープライズ関連,GPGPU関連ばかりだったかというとそうでもない。本稿では,ゲームファン向けの新技術「Project G-Assist」(以下,G-Assist)を実際に体験してみた様子をレポートしたい。 G-Assistのデモコーナー。右の人物は,今回のデモを担当したGuillermo S

                                      AIがゲーム攻略情報でプレイをお助け? PCのチューニングまで面倒を見てくれる「Project G-Assist」は何ができるのか
                                    • マイクロプロセッサ・アーキテクチャ教科書 発売記念インタビュー | Interface – CQ出版

                                      マイクロプロセッサの基本から最新技術までを詳細に解説した書籍「マイクロプロセッサ・アーキテクチャ教科書」(中森 章著)を11月26日に発売します.各種アーキテクチャのプロセッサの構造を比較しながら解説する,実務的で実践的なプロセッサ解説書です. 今回は,書籍の発行を記念して筆者の中森 章氏にインタビューを行いました(インタビューで収まらなかったぶんは文書にてご提供いただきました). [書籍販売ページ]https://www.cqpub.co.jp/hanbai/books/45/45561.htm インタビュアー:Interface編集部(み),(太) 新刊発行にあたり 編(み)このたびは新刊発行おめでとうございます.また,大幅に加筆いただきありがとうございました. (中森 章氏)こちらこそありがとうございます.20年間のプロセッサの進歩をまとめる良い機会でした. (み)今回発売される「マ

                                      • スーパーコンピューターの第一人者「齊藤元章氏」が生成AIで日本のゲームチェンジャーになる日 古賀茂明 | AERA dot. (アエラドット)

                                        古賀茂明氏 この記事の写真をすべて見る 7月19日、驚くべき記者発表が行われた。 【写真】調印式で挨拶をする齊藤氏はこちら ZYRQというほとんど知られていない日本の新興企業と、半導体技術では世界最高峰と言われる台湾の公的機関ITRI(工業技術研究院)による共催である。 発表された内容は、全く新しい「水浸」冷却方式による次世代生成AIデータセンター冷却技術を両者が共同開発する契約に調印するというものだ。 と言ってもなんのことかさっぱりわからないだろう。 19日に行われた調印式とその後の記者への説明を聞いても普通の人にはなかなか難しい内容だ。 筆者はこの分野の専門家ではないが、実は、この技術を開発した齊藤元章氏とは2年以上前から交流を続けてきており、その過程でこの話を詳しく取材し続けてきた。今回の記者発表で、ようやく広く一般の人に伝えることが許される。 そこで、なんとか少しでもわかりやすく、

                                          スーパーコンピューターの第一人者「齊藤元章氏」が生成AIで日本のゲームチェンジャーになる日 古賀茂明 | AERA dot. (アエラドット)
                                        • AIエコシステムとAI銘柄を考える - FIRE: 投資でセミリタイアする九条日記

                                          2024年はまさにAIの年でした。そして2025年も引き続きAIの年になるでしょう。このところの株高を牽引しているのもAIで、この流れは当分変わらないと思っています。PCの登場でIntelやMicosoftといったIT企業が巨大化し、インターネットの登場でGoogle、Amazon、Metaなどのビッグテックが誕生しました。そして今、AIの発展によって次世代を担う企業が決まってきます。 AIで伸びるのはどの企業か? AIのエコシステム AIの構造 AIモデルのトレンド AIエージェントが売り上げにつながる日 AIで伸びるのはどの企業か? 2024年のS&P500は27.35%のリターンでしたが、そこからM7(Apple, Microsoft, Google, Amazon, Nvidia, Meta ,Tesla)を除くと21.2%になります。つまりM7がS&P500を6ポイント押し上げた

                                            AIエコシステムとAI銘柄を考える - FIRE: 投資でセミリタイアする九条日記
                                          • シュレディンガーの「生命とは何か」を読んで、人工生命の事を考え、NTTICCの展示を振り返る - 補遺

                                            はじめに シュレディンガー先生、予防線を張る NTTICCでの展示について Chaotic Satisfying Things ライフゲーム・(スキ|キライ) お前は神から愛されなかった/イコンを捨てたSCP財団 Reminiscence Syndrome(連想症候群) 時空間の離散化・格子法の限界 人工生命とAI 共進化する二つの分野 LLMとオープンエンドな進化 「非人間中心主義」 野良猫的人工生命 「何の役に立つの?」 媒介者としての人工生命 環世界の拡張としての人工生命 単純なセンサではないことの意味 おわりに はじめに ICC キッズ・プログラム 2024 キミ( ).コード( ).セカイ( )の展示が無事終わりました。避雷は「うまれる,かかわる,またうまれる,」という作品を展示していました。デカいプロジェクションマッピングに、センサを取り付けたような作品です。大きな展示を実寸で

                                              シュレディンガーの「生命とは何か」を読んで、人工生命の事を考え、NTTICCの展示を振り返る - 補遺
                                            • GitHub - philipturner/metal-benchmarks: Apple GPU microarchitecture

                                              This document thoroughly explains the M1 and M2 GPU architectures, focusing on GPGPU performance. Details include latencies for each ALU assembly instruction, cache sizes, and the number of unique instruction pipelines. This document enables evidence-based reasoning about performance on the Apple GPU, helping people diagnose bottlenecks in real-world software. It also compares Apple silicon to gen

                                                GitHub - philipturner/metal-benchmarks: Apple GPU microarchitecture
                                              • Pythonライクな事前コンパイラ言語のパフォーマンス比較 - Qiita

                                                Python ライクな事前コンパイラ言語のパフォーマンスを比較してみた Python ライクな文法だけど事前コンパイルして実行するタイプの言語が近年増えてきています。 ずいぶん前からあるのは Cython。ちょっと前から Codon。最近 Mojo という感じでしょうか。 プログラミング学習のハードルが低いことから初学者を始め Python もしくは Python の記法で書けると嬉しいというニーズはAIプログラミングという新潮流もあって高まっていると思います。 Python ニーズの高まりに相反して、素の Python で数値計算をさせるのは実用上難しいことが多いです。Python 3.13 が JIT (Just in Time) コンパイルに標準で対応する予定だという話も聞こえてきましたが、やはり JIT コンパイルでも数値計算、科学計算に本格的に用いるには物足りません。 そこで、P

                                                  Pythonライクな事前コンパイラ言語のパフォーマンス比較 - Qiita
                                                • NVIDIA GPU向けCUDAのコードをそのままAMD GPU向けにコンパイル出来る「SCALE」が登場 | XenoSpectrum

                                                  人々をNVIDIA製GPUに縛り付けていた枷の一つが取り払われるかも知れない。英国の企業Spectral Computeが7年の開発期間を経て、CUDAプログラムをAMD GPUでネイティブに実行できるGPGPUツールチェーン「SCALE」を公開した。これにより、開発者はコードの変更なしにCUDAアプリケーションをAMD GPUで動作させることが可能になるのだ。 SCALEがもたらすGPGPU開発の新たな道 SCALEは、CUDAソースコードをAMD GPU向けにネイティブコンパイルする「クリーンルーム実装」として設計された。これまでのHIPIFYやZLUDAなどの既存のソリューションとは異なり、SCALEはコードの変換や移植作業を必要とせず、CUDAプログラムをそのままAMD GPU向けにコンパイルできる。 特筆すべき点として、SCALEはNVIDIAのnvccコンパイラの代替として機能

                                                    NVIDIA GPU向けCUDAのコードをそのままAMD GPU向けにコンパイル出来る「SCALE」が登場 | XenoSpectrum
                                                  • 任意サイズ正方行列乗算の最適化(その1) - よーる

                                                    今まで3回にわたって、行列サイズがコンパイル時にわかる場合の正方行列乗算の最適化を取り扱ってきました(行列乗算の最適化入門 - よーる、行列乗算の最適化入門(マルチコア編) - よーる、行列乗算の最適化入門(GPGPU編) - よーる)。 行列サイズがコンパイル時にわかる場合は、コンパイラの自動ベクトル化だけで限界に近い性能が出ました。 今回はちゃんとした行列積プログラム、つまり行列サイズがコンパイル時にわからない場合の正方行列乗算の最適化をやっていきます。 配列のオーバーラップを気にしているのか、どうにもコンパイラの自動ベクトル化ではうまくいかなかったので、ちょっとだけアセンブリ言語に手を出しました。 5×4レジスタブロッキングカーネル 行列乗算の最適化入門(マルチコア編) - よーるで示したように、レジスタブロッキングは5×4が最適でした。 これについて、なぜそうなるかの説明は難しいで

                                                      任意サイズ正方行列乗算の最適化(その1) - よーる
                                                    • Windows PCにCUDA ToolkitとcuDNNを導入する

                                                      CUDA ToolkitとcuDNNの概要CUDA ToolkitはNVIDIAの提供するGPGPUのためのプラットフォームです。cuDNNはNVIDIAの提供するDNNのためのライブラリです。 ailia SDKは単独でもCPUやGPU(Vulkan)を使用した推論が可能ですが、NVIDIA GPUでは、CUDA ToolkitとcuDNNを導入することで、より高速な推論が可能になります。 CUDA Toolkitのインストール下記のページのDownload Nowからインストールします。

                                                        Windows PCにCUDA ToolkitとcuDNNを導入する
                                                      • 米Dell、GPUサーバ「PowerEdge XE9680」にGaudi 3 AIアクセラレーター搭載モデル

                                                        米Dell Technoligiesはこのほど、Intel製AIアクセラレーターを搭載したGPUサーバ「PowerEdge XE9680」の発表を行った。 プロセッサとして最大56コアの第4世代Xeonスケーラブル・プロセッサを2基搭載する高性能GPUサーバで、Tensorコア64基と128GB HBMe2メモリを搭載するIntel Gaudi 3 AIアクセラレーターを搭載しているのが特徴。Gaudi 3専用メディアデコーダーはAIビジョンアプリ向けに設計されており、エンタープライズAIアプリケーションのパフォーマンス向上を行えるとしている。 関連記事 企業は生成AIのビジネス活用をどう考えるべきか 生成AI開発基盤を提供するデルの取り組み デル・テクノロジーズが、報道関係者向けに生成AI関連の勉強会を実施した。そこで出た生成AIの取り組みをまとめた。 デル、従来比2.9倍のAI推論を実

                                                          米Dell、GPUサーバ「PowerEdge XE9680」にGaudi 3 AIアクセラレーター搭載モデル
                                                        • GPGPUのメモリアーキテクチャついて考えてみる - Ryuz's tech blog

                                                          GDDR について もともとGPGPUはGPUであり、GPUはグラフィックスボードであります。 グラフィックスボードは、DVIとかHDMIとかDisplayPort を備え、60fps などで毎フレーム画像を生成&出力するものですが、そうするとゲームなどではその fps に対して、例えば 60fps であれば 16.6ms の時間で読みだせる分量だけのテクスチャなどを絵作りに使えることになります。昨今ではマルチパスレンダリングも当たり前に行われていますので、1枚の絵を作るためにメモリ上での描画作業は何度も繰り返されます。 つまり1枚の絵を、より高精細で複雑にしようとするととにもかくにも大量のバス帯域が無いとはじまりません。 逆に、1フレーム時間で読みだせない容量があっても、それは別のシーンの描画の為の準備的なデータを置いておくことにしか使えませんので、やはり容量より帯域が優先されがちです。

                                                            GPGPUのメモリアーキテクチャついて考えてみる - Ryuz's tech blog
                                                          1