タグ

GPUに関するymym3412のブックマーク (12)

  • nvidia-smiコマンドの詳細ついて - Qiita

    Volatile GPU-Utilが0%なのにプロセスは立っててメモリは使われてる。ってことが起きた。 資料を見たけど、ただメモリだけ使ってるって状態なのだと解釈してる。 Thu Mar 2 13:49:14 2017 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 367.57 Driver Version: 367.57 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:

    nvidia-smiコマンドの詳細ついて - Qiita
  • RTX 2080 Ti、TITAN RTXの学習ベンチマーク - ファナティック

    RTX 2080 Ti、TITAN RTXの学習ベンチマーク 2019.04.18 ベンチマークレポート RTX 2080 Ti、TITAN RTXの学習ベンチマーク NVIDIA® Turing™のアーキテクチャを採用したGPU(Turing世代)であるNVIDIA® Geforce® RTX 2080 TiとNVIDIA® TITAN RTX™を使用し、ディープラーニングのフレームワークである「Chainer」でImageNetの画像の一部を使用し、学習のベンチマークを実施しました。 前世代のGPU(Pascal世代)であるGTX 1080 TiとTuring世代を比較、GPUの枚数を最大10枚で学習した結果、TensorCoreを使用した結果をご報告いたします。また、2080 Ti 5枚における動作環境評価の結果もあわせてご報告いたします。 目次 測定環境 測定結果 ・1080 Ti

    RTX 2080 Ti、TITAN RTXの学習ベンチマーク - ファナティック
  • CuPyのElementwiseKernelで楽にGPUの恩恵を受ける - Qiita

    Powered by DLHacks はじめまして、マンボウです。普段は信号処理や画像解析をやっています。 唐突ですが、PythonからピンポイントにCUDAの機能を利用できるCuPyのElementwiseKernelを紹介します。 CUDAと言っても恐れることはなく、「C++の記法をなんとなく理解している」レベルの人でも簡単に利用できます。 はじめに Pythonは書きやすく読みやすいので私は好きです。 しかし、膨大な信号や大量の画像をPythonで扱っていると、どうしても速度が気になりだします。 かといって、全てをC++やCUDAで書き直すのも骨が折れます。 特に、データ解析で1回しか使わないようなコードを頑張ってC++やCUDAで仕上げるのは辛いです。 「『この部分だけ』で良いんや!折角GPU積んでるんだから『この部分だけ』CUDAで書かせてくれ!」 と思うことが多々あるのです。

    CuPyのElementwiseKernelで楽にGPUの恩恵を受ける - Qiita
  • プログラムを高速化する話Ⅱ 〜GPGPU編〜

    GPUを利用して汎用演算を行う技術であるGPGPUを用いて、プログラムを高速化する技法についてまとめました。高速化の具体例も適宜用いて解説しています。 CPU編はこちら https://www.slideshare.net/KMC_JP/ss-45855264

    プログラムを高速化する話Ⅱ 〜GPGPU編〜
    ymym3412
    ymym3412 2018/07/18
  • Quick Guide for setting up PyTorch with Window in 2 mins

    Edited: Since PyTorch 0.4.0 (The latest is 1.0 now), there are official Window Support, please install Pytorch with either pip or conda, details are written in their homepage instead if you want to use the new version. Pytorch has done a great job, unlike Tensorflow, you can install PyTorch with a single command. It handles CUDA and CuDNN out of the box for you in most case. In other word, you don

    Quick Guide for setting up PyTorch with Window in 2 mins
  • scryptがGPUに破られる時 | びりあるの研究ノート

    一般的によく知られている SHA-256 や MD5 などのハッシュ関数は非常に単純な設計となっており、非力なパソコンや組み込み機器、スマフォなどでも高速に計算できます。 しかしながらその一方で、ハッシュ関数を手当たり次第に計算し、もとの入力値を復元するいわゆる「ブルートフォース攻撃」が容易であるというデメリットがあります。 特にこのような SHA-256 や MD5 といったハッシュ関数は、GPU を用いるか、もしくは専用のハードウェア (FPGA もしくは ASIC) を製作することで非常に高い効率で計算(攻撃)ができてしまうことが知られています。 そのため、GPU ないし専用ハードウェアを用いたとしても、攻撃効率の改善が難しくなるような新たなハッシュ関数がいくつか提案されています。 その中で比較的古く (2012年ごろ) に開発され、他のハッシュ関数にも影響を与えている「scrypt

    scryptがGPUに破られる時 | びりあるの研究ノート
    ymym3412
    ymym3412 2018/03/03
  • chainer.cuda.elementwiseを使ってGPUで処理を行う - Qiita

    はじめに Chainerのfunctionsのコードを読んでいるとcuda.elementwiseとかcuda.reduceの呼び出しを見かけることがあります。 これらは独自の処理をGPU上で実行するためのメソッドです。 Chainer functionの実装には欠かせないメソッドと言えるわけで、Chainer中級者になるために必要そうなので調査しました。 この記事ではcuda.elementwiseを扱い、cuda.reduceについては説明しません。 cuda.elementwiseの説明は以下にあります。 http://docs.chainer.org/en/stable/cupy-reference/kernel.html またSlideShareにPreferred Networksの奥田氏による解説があります。 http://www.slideshare.net/ryokuta

    chainer.cuda.elementwiseを使ってGPUで処理を行う - Qiita
  • CUDA 8.0 RCをUbuntu 16.04 LTS + GTX1080にインストール - Qiita

    Ubuntu 16.04 LTS + GeForce GTX 1080の環境に、CUDA 8.0 RCをインストールします。Ubuntu 16.04 LTSでは、デフォルトでgcc 5.4のため、CUDA toolkitのインストール時に適切なコンパイラが無いと怒られます。2016年8月8日にgcc 5.4に対応した公式パッチが出たのですが、これに対するドキュメントが見当たらないため、メモ代わりに残しておきます。(gccを5.3.1にダウングレードすれば、パッチを使用せずにインストールできると思います。) 公式ドキュメントを見る まずは、公式ドキュメントであるInstallation Guide for Linuxを確認します。以下の手順は基的に公式ドキュメントのPackage Manager Installationをベースにインストールを試みます。 CUDA 8.0 RCをダウンロー

    CUDA 8.0 RCをUbuntu 16.04 LTS + GTX1080にインストール - Qiita
  • クラウドGPUの比較について

    私たちステアラボの研究員は、クラウド上のGPUマシンを使って計算を行うことがあります。現在、複数のクラウドプロバイダーから数多くのオファーが提供されており、どのプロバイダーのどういうマシンを利用するか、は難しい選択です。提供されているオファーの性能とコスト(USD)を比較するため、私たちは各クラウドプロバイダーのウェブサイトから集めた情報を表にまとめ、いくつかインタラクティブなグラフを作ってみます。 前者には、各オファーの主なスペックと料金の表の他に、CPUGPUの性能を比較するグラフ、使う時間によって変動するコストのグラフ、一定の利用期間においてのコストのグラフ、CPUGPUの1TFlops1あたりのコストを比較するグラフがあります。後者は計算量を固定した場合、GPUで計算する時間とそれにかかるコストのグラフとCPU計算時間とコストを比較する2つのグラフです。 また、両方のページの上

    クラウドGPUの比較について
  • [TensorFlow] Python ⇔ Protocol Buffers ⇔ GPU/分散コンピューティング - Qiita

    はじめに ディープラーニングのフレームワークTensorFlowは各種処理をProtocol Buffers経由で外だしすることで、PythonGPU/分散コンピュータとのスイッチングを減らし、計算を効率化しています。 Protocol Buffersは、Googleの分散コンピューティングを支える技術で、言語非依存、プラットフォーム非依存にデータ構造をシリアライズする仕組みです。現在、C++, C#, GO, Java, Pythonがサポートされています。 TensorFlowは、処理をノードとしてグラフを構築し、一気に計算する仕組みになっています。 グラフの例 以下TensorFlowのグラフがProtocol Buffers形式にシリアライズされる様子を見てみたいと思います。 サンプルプログラム TensorFlowで足し算をしてみます。 初期値0で加算1を3回実行します。 im

    [TensorFlow] Python ⇔ Protocol Buffers ⇔ GPU/分散コンピューティング - Qiita
  • Chainer + Dask で 並列 Deep Learning したい <1> - StatsFragments

    この記事は Chainer Advent Calendar 2015 17 日目の記事です。 はじめに サイズが大きいデータを Deep Learning すると学習に時間がかかってつらい。時間がかかってつらいので並列処理して高速化したい。 並列化するのに良さそうなパッケージないかな? と探してみると、Dask という並列 / Out-Of-Core 計算パッケージを見つけた。これと Chainer を組み合わせると並列処理が簡単に書けそうな気がする。 最初は MNIST を並列化してみたが、データが小さすぎるせいか むしろ遅くなってしまった。もう少し大きいデータである CIFAR-10 を使い、より深いネットワーク構造でその効果を確かめたい。 最終的には以下二つの処理を並列化することを目指す。 Data Augmentation DNN の学習 1. Data Augmentation

    Chainer + Dask で 並列 Deep Learning したい <1> - StatsFragments
  • Linux で計算機クラスタを作る (1. ネットワーク構築) - Qiita

    必要に迫られて計算機クラスタを作ったのでその手順を解説します。 何を作ったのか うちの研究室では高性能なCPU/GPU を搭載したマシンを数台所有しており、使いたい人に配って個別管理してもらっていたのですが、このたび使いたい人が増加し、話し合って融通するのも面倒なので、ジョブ管理システムを備えたクラスタを構築することにしました。あくまで稼働率向上のためのクラスタ化なので、ノード間並列機能は備えておりません。 記事は「ユーザーとしての Linux の操作にはひと通り慣れたけど、ネットワークの詳しい知識は持ってない」という人を対象に書いています。つまり僕くらいの人です。詳しい人から見ればところどころ勘違いがあると思いますがご了承願います。 環境 OS: Ubuntu Server 14.04 Network: Gigabit Ethernet ジョブ管理: Torque サーバー用途としては

    Linux で計算機クラスタを作る (1. ネットワーク構築) - Qiita
  • 1