タグ

ブックマーク / qiita.com/masahi (3)

  • GPU 対応した AutoTVM を試す - Qiita

    MIOpen にはわずかに届きませんでしたが、MIOpen は cuDNN と同様に Winograd などのカーネルをアセンブリで実装していることを考えると、AutoTVM の結果はかなり良いと考えられます。また、R9 Nano と GTX 1070 ti の理論性能はほぼ同等ですが、CUDA 版の結果と比較しても特にVGG については大きな遜色はなく、AMDGPU でも十分高速に推論ができることがわかると思います。Resnet については CUDA 版と比べて少し開きがあるので要調査です。AMD 版が少し遅いことの理由の一つとして、コンパイラの成熟性が挙げられます。NVCC がすでに 10年以上使われているのに対して、LLVM の AMDGPU バックエンドはまだ比較的新しいです。今後のパフォーマンス改善には期待できると思います。 終わりに AutoTVM の成果物として、今のところ

    GPU 対応した AutoTVM を試す - Qiita
  • Winograd 畳み込みアルゴリズムをTVMで実装する その2 - Qiita

    前回の記事では、Winograd アルゴリズムの概要、TVM によるアルゴリズムの定義、ナイーブな GPU 実装、までを説明しました。今回は、ナイーブなスケジュールから出発して、ステップバイステップでスケジュールを改善していきます。最終的には、 TVM 家の Direct Convolution よりも 2 倍近く速くなります。また、TVM には AMDGPU 向けのバックエンドもあるので、AMDGPU 用のカーネルを生成することもできます。NVIDIA GPU 向けに高速化したスケジュールが、 AMDGPU でも高速に動作することを最後に示します。 高速化 1. 入力変換、出力逆変換の改善 まずは、入力タイルの変換 $V$ の計算スケジュールを改善します。$V$ は、サイズ (4, 4, 全タイル数, チャネル数) で、入力タイル $d$ に変換行列 $B^T$ を左右からかけた変換

    Winograd 畳み込みアルゴリズムをTVMで実装する その2 - Qiita
  • Heroku + angularJS + Yeoman + Vagrant(CentOS)で動かす場合の手順 - Qiita

    色々見て回ったんですが、あまりにも途中途中が抜けていて、セットアップするのに時間がかかったので、順序を纏めます。 1:VagrantにCentOSを入れる。 VMはVirtualBoxを今回使います。利用するLinuxは今回はCentOS6.5です。 詳細はこちらの方を見ていただくと良いと思います。 【参考】 VagrantをMacで動作させてみた 2:MEAN環境の構築 MongoDB,Express,Angular.js,Node.jsで環境を作るのですが、そのままでやると後にYeoman + Herokuをやった時にエラーが出るので一部変更します。 先に、Rubyの最新版を入れます。一番確実なのが Ruby on Rails チュートリアル 実例を使ってRailsを学ぼう Michael Hartl (マイケル・ハートル) の手順でやって下さい。CentOSでyumでrubyを入れて

    Heroku + angularJS + Yeoman + Vagrant(CentOS)で動かす場合の手順 - Qiita
  • 1