エヌビディアの強みであるGPUの優位性を揺るがすかもしれないAI関連の注目論文とは?人気急上昇中のメルマガ『週刊 Life is beautiful』より読者Q&Aをご紹介。著者の中島さんは「Windows95の父」として知られる日本人エンジニア。メルマガでは毎号、読者からの質問に丁寧に回答しています。 ※本記事のタイトル・見出しはMAG2NEWS編集部によるものです プロフィール:中島聡(なかじま・さとし) ブロガー/起業家/ソフトウェア・エンジニア、工学修士(早稲田大学)/MBA(ワシントン大学)。NTT通信研究所/マイクロソフト日本法人/マイクロソフト本社勤務後、ソフトウェアベンチャーUIEvolution Inc.を米国シアトルで起業。現在は neu.Pen LLCでiPhone/iPadアプリの開発。 1ビットの高速推論AIチップ 米国より先に中国が開発する可能性も 読者からの質
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第47回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ GPU上でネイティブ動作する並列処理が可能な新プログラミング言語「Bend」とランタイムシステム「HVM2」 2D画像から3Dコンテンツを生成する「CAT3D」をGoogleが開発 大規模言語モデルは追加学習や新知識で幻覚生成が増加。Googleなどが調査 画像とテキストを使った長文生成が得意なAIモデル「Chameleon」をMetaが開発 Transformerを超える「Mamba」は視覚認識タスクに必要か? 開発した「MambaOut」モデルで検証 GPU上でネイティブ動作する並列
はじめに WSL2(Windows Subsystem for Linux 2)は、Microsoft Windows上でLinuxカーネルを直接実行できるようにする機能です。 この記事ではWSL2環境にDockerを導入しGPUを用いた機械学習環境を構築する手順を紹介します。 構築イメージは以下の図の通りです。NvidiaGPUを搭載したマシンにWSL2環境を構築します。Dockerを用いてコンテナを用意し、CUDAは各コンテナ内のCUDA Toolkitを用いて利用します。 今回開発するPCのスペックは以下の通りです。 Windows 11 Windows version: 22H2 GPU:NVIDIA Geforce RTX 3060 12GB 設定 1. WSL2を有効化 デフォルトではWSL2環境が無効化されている可能性があるので、始めに有効化しておきましょう。 「コントロール
現在シリコンバレーで最も注目される話題は「GPU不足」といわれている。生成AIへの関心が高まる中、大規模言語モデルの開発が活発化し、それに伴いGPUをめぐる取得競争が激化しているためだ。そのため、NVIDIAが新たに発表した「GH200」にも注目が集まる。GH200はどんなGPUになるのか。そもそもなぜGPUが不足しているのか、現行GPU「H100」や「A100」は誰が、何個取得したのか、ChatGPTの開発にGPUはどれほど必要なのか。GPU関連の注目トピックを紹介しよう。 シリコンバレーでは「GPU不足」が話題 ChatGPTなど、生成AIへの関心・需要が高まる中、大きな課題としてシリコンバレーで注目されるトピックがある。それが「GPU不足」だ。 OpenAIのChatGPT、グーグルのBard、AnthropicのClaudeなどいわゆる生成AIチャットボットの核となっているのが大規
株式会社アイビス 代表取締役社長 神谷 栄治 ソフトウェア技術者・経営者。2000年に「株式会社アイビス」を創業。フィーチャーフォン向けアプリの開発を経て、2011年にスマホ向けペイントアプリ「ibisPaint」をリリース。2023年現在も開発組織をリードしている 株式会社アイビスが提供する「ibisPaint(アイビスペイント)」は、高度な機能と使いやすさ、優れた安定性を兼ね備えたペイントアプリとして世界中のユーザーに愛されています。 リリースは2011年。当時からGPUベースで、開発言語にはC++を採用し、UIパーツやライブラリもすべて自社で制作しているという。ibisPaintの企画・設計・開発を一手に担った創業者の神谷栄治氏は「この技術選定が、現在のibisPaintの発展につながった」と語ります。 2011年当時のスマホアプリ開発において異例の技術選定の意図は? 全世界での累計
対象範囲 🏃♂️ Win初期化された状態からスタート 💻 GPUは3060(Laptop) 🚩 ゴールは、ローカルでKaggle公式のDockerImageでGPUが使えるところまで [任意]Win初期化-WindowsUpdate 綺麗な状態からスタートしたい方はここからがよいかと思います。 Winの初期化は「設定」->「回復」->「PCをリセットする」で可能です 初期化完了後はひたすらWindowsUpdate。 NVIDIA Driverのダウンロード(CUDA) CUDAのバージョンはローカルとKaggleKernelをできるだけ合わせておきたいので、確認します KaggleKernelのCUDA Versionの確認 PS C:\Users\hoge> nvidia-smi Sat Mar 18 12:58:39 2023 +-----------------------
この記事でわかること: タイトル通り スクラップのまとめです https://zenn.dev/okz/scraps/1a8cb9aeafd127 1. WSL2をインストール 管理者権限でコマンドプロンプトを開く wsl --install Windowsの機能の有効化または無効化から、Linux用Windowsサブシステムを有効化 再起動 2. NVIDIA drivers for WSLのインストール get CUDA DriverからGPUに合ったドライバーをインストールする wsl.exe --updateして再起動する 3. WSL2にCUDA Toolkitを入れる 古いGPGキーを削除する Linux x86 CUDA toolkit 11-7のインストール ※筆者はsudo dpkg -i cuda-keyring_1.0-1_all.debでブルスク落ちしたので一行ずつ
MicrosoftはWindows 10/11に、「GPUスケジューリング」機能を追加している。公式ブログによれば、WDDM(Windows Display Driver Model)2.7以降のドライバーを使用する環境で、メモリーの制御をGPUに委ねて遅延を低減し、性能を改善する機能である。 NVIDIA/AMDなどのeGPU(外付けGPU)を備えるPC環境と、対応デバイスドライバーがあれば利用可能。本機能はWindows 10 バージョン2004から搭載しているが、その頃はコロナ禍で気が滅入ってしまい、探究心が枯渇していた。最近は気持ちも安定し、逃避ではなく日々の楽しみとしてPCゲームをプレイしている。 そしてPCゲームのパフォーマンス調整を行っていた際、「GPUスケジューリング」の情報に出くわした次第だ。まずは確認方法から紹介する。 「Win」+「S」キー、もしくは「Win」+「Q」
先日TensorFlow2.1がリリースされました。大きな変更点の1つとして「CPU版とGPU版の統合」があります。今までは環境に応じてinstall tensorflowとinstall tensorflow-gpuを使い分けていたのですが、全てtensorflowで一括管理されるようになりました。これは嬉しい! というわけなので、早速私の環境にもTensorFlow2.1を入れてみました。conda install tensorflow=2.1を実行し、GPUを確認してみましょう^^ >from tensorflow.python.client import device_lib >device_lib.list_local_devices()[name: “/device:CPU:0” device_type: “CPU” memory_limit: 268435456 locali
Windows 10上のAnacondaに、TensorFlowのバージョン2.3.0, 2.4.1, 2.5.0のGPUサポート付きのものを、仮想環境ごとに併用可能な状態でインストールする。 概要 TensorFlowを導入しようとしてめんどくせ~って思ったのでインストール方法をメモしておく。 ディープラーニングライブラリごとに、またバージョンごとに、GPUサポートに必要とするCUDAのバージョンが異なっている。しかし、環境変数に同時に複数のバージョンのCUDAをPathに設定することはできない(複数設定しても一つしか参照されないので意味がない)。 そのため、仮想環境ごとにPathを変更したコマンドプロンプトを起動できるようにしたらいいのでは?と思った。これをすることで、違うバージョンを併用できる。 以下では、TensorFlowのバージョン2.3.0, 2.4.1, 2.5.0のGPU
"Locality is efficiency, Efficiency is power, Power is performance, Performance is King", Bill Dally マルチスレッディングとは? CPUとGPUのマルチスレッディングの違いをブログにまとめていたけど例によって誰も興味なさそう— arutema47 (@arutema47) 2021年8月16日 つぶやいたら読みたい方が多そうだったので完成させました。 マルチスレッディングとはメモリ遅延を隠蔽しスループットを上げるハードウェアのテクニックです。 ただCPUとGPUで使われ方がかなり異なるため、その違いについて考えてみる記事です。 (SIMDについて並列プログラミングの観点から触れるべきでしたが、時間無いマルチスレッディングに注目するため初版では省きました。) 本記事について 本記事はCPUとG
概要 こんにちは、機械学習エンジニアの古賀です。 最近、人の動きを時系列で解析するためにグラフデータを扱ったのですが、データ量が大きくなると解析に時間がかかってしまい、効率が悪いと感じることがありました。 そんな中、cuGraph という高速にグラフ分析ができるライブラリが あることを知ったので、どれくらい高速なのか、有名なページランクの計算を題材に他のライブラリと速度を比較してみました。 目次は以下です。 概要 グラフとは Python によるグラフデータの分析 cuGraphとは ページランクとは ページランク値の定義 ページランクとグラフ 検証 実行環境 cuGraph ライブラリのインストール ライブラリのインポート データセット 検証内容・結果 1. NetworkX のグラフ、NetworkX のアルゴリズムを用いてページランクを計算 2. NetworkX のグラフ、cuGr
””””内蔵GPUもったいなくないですか?”””” Raspberry Pi4には計算資源としてCPUの他にVideoCoreⅥ(VC6)と呼ばれるGPUが搭載されています。 GPUを汎用計算に活用するGPGPUは一般的にNvidia社の外付けGPUを用いて行われていますが、組み込みボードやノートPCでもGPUは搭載されているものがあり、GPGPUが可能です。(技術的には) 組み込みボードでは計算資源の拡張が難しいのでGPGPU活用は色々と嬉しいことがあると思います。 今回は組み込みボードの代表格であるRaspberry Piの最新機、Pi4でGPGPUに挑戦します。 VC6-GPGPU プログラミング方法 Python上でVideoCore6のアセンブリを記述&実行できる神ライブラリpy-videocore6がIdein社から公開されています。 github.com アセンブラなのでプロ
おひさしぶりです!ぴゅーぱです。 ALISオープンβおめでとうございます。よしだぱいせんにアイコン書いていただいて心機一転、今後もマイペースで更新を続けていくつもりですのでよかったら読んでやってください。 たぶん初めましての人も多いだろうから過去記事URLはっときますね。 さて、いまTwitterなどで話題の「例のグラボ」ってご存知ですか? 昨年末からパソコンショップに画面出力ができないグラボが安価で出回っているということで話題になっているものです。グラボなのに画面出力ができないってなんだよって話ですが、なにやらもともとマイニング用に販売されたグラボが業者によって手放され、格安で中古販売されているとの噂。しかもゴニョゴニョすると映像出力もできちゃうじゃないかということで話題に拍車をかけています。今日はこの「例のグラボ」の可能性を探ってみたいと思います! ※この記事は本グラボの改造を目的とす
測定結果 結果として、間違った測定方法だとCPUとGPUを比較すると「1883倍速くなりました!」という主張をしてしまうことになります。ちなみにGPUで1000倍なんて数字が出てきたら確実にどこか間違えています。実際、今回のケースでは本当は「約59倍速くなりました!」というのが正しい結果になります。 torch.cuda.synchronize()とtorch.cuda.Eventを使った場合の違い 今回torch.cuda.synchronize()とtorch.cuda.Event の2種類を紹介しました。場合によっては使い分けをしたほうがいいのでこの二つの違いを説明していきます。 torch.cuda.synchronize() を利用した場合、簡単なので測定しやすいのでいいので、ぱっと測定したい場合はこちらの方法が楽でよいかと思います。ただ、こちらの方法はkernel関数の発行と測
こんにちは! テリーです。Apple SiliconのM1チップを搭載した新しいMacは、当初の期待以上の速度が出ているようで、パソコンの新モデルとしては久しぶりに購買意欲をかきたててくれました。16インチのMacBookProが出ればすぐに購入しようと思います。さて、M1はCPUの速度と価格の方に注目されがちですが、GPUも劇的に進化しています。「機械学習といえばNVIDIA」の時代が何年も続いており、TensorflowのGPU版が使えないMacは機械学習トレーニング環境としてあまり使われていませんが、M1の圧倒的な処理能力が使えるならば、多少の文法修正は受け入れられます。ここから勢力図の逆転もありえそうです。 突然ですが、最近映画を見ました。人気小説を原作にした映画で、主演俳優は原作のイメージそのものでしたが、助演の方の顔が原作とまったくイメージが異なっていて台無しだと、娘が怒ってい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く