先日、ONNX Runtimeを使って、MNISTの推論を試した。 今回は、dlshogiのResnet 10ブロック、192フィルタのモデルを使って、GPUで実行した場合の速度と、CPUで実行した場合の速度を比較した。 測定条件 GPUでのONNXの推論にはTensorRT(FP16)を使用する。 CPUの測定にはONNX Runtimeを使用し、デフォルトのCPUプロバイダと、MKL-MLを有効にしたCPUプロバイダ、DNNLプロバイダのそれぞれで測定した。 OSはWindows 10 64bit、GPUはGeForce 2080Ti、CPUはCore i7-6700K(4コア、8スレッド、4GHz)を使用した。 推論の対象は、floodgateの棋譜からサンプリングした1万局面、バッチサイズは128とした。 それぞれの条件で、3回測定し、その平均時間を求める。 GPUで実行した場合の
One year after ONNX Runtime’s initial preview release, we’re excited to announce v1.0 of the high-performance machine learning model inferencing engine. This release marks our commitment to API stability for the cross-platform, multi-language APIs, and introduces a breadth of performance optimizations, broad operator coverage, and pluggable accelerators to take advantage of new and exciting hardwa
機械学習を実際のプロダクションで使う時に大切な概念として serving というものがあります。以下、このservingの概要にさらっと触れ、つい最近しれっとリリースされたMS社製のOSS、ONNX Runtimeでのservingについてまとめたいと思います。 Servingとは? 機械学習の実応用において、推論(inference)をコスパ良く行うことは、モデルの精度を高めることと同様に重要です。というのも、オフラインで実行するのならともかく、現在稼働しているWebサービスなどのシステム上でオンラインで実行する時は、モデルからのレスポンスの速さやその運用コストがサービスのボトルネックになることが多いからです。 学習済みのモデルをサービスとしてデプロイしてオンラインの推論APIを提供することを広くservingと呼びます。servingと対になるのはオフライン実行ですね。例えばデータの塊
はじめに オプティムの奥村です。Microsoft が 2018/12/04 に ONNX Runtime を MIT ライセンスでオープンソースとして公開しました。 azure.microsoft.com ONNX Runtime は 2018/10/16 に Preview として公開されて気になっていましたが、コードが公開されたのでざっと目を通してみて、ONNX Model Zoo に登録されている物体検出モデルの Tiny YOLOv2 を動かしてみました。 ONNX Runtime を大雑把にいうと以下のようになると思います。 Menoh、 onnx-tensorrt のような ONNX の推論エンジンのひとつ CUDA・MKL-DNN の計算支援を受けた高速な推論が可能で、nGraph や TensorRT に対応予定 Linux/Mac/Windows で動作 CPU は A
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く