プロファイラを使用した TensorFlow のパフォーマンス最適化 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 このガイドでは、TensorFlow Profiler で提供されているツールを使用して、TensorFlow モデルのパフォーマンスを追跡する方法を説明します。また、ホスト(CPU)、デバイス(GPU)、またはホストとデバイスの両方の組み合わせでモデルがどのように機能するかを確認します。 プロファイリングは、モデル内のさまざまな TensorFlow 演算(op)によるハードウェアリソース消費(時間とメモリ)を把握し、パフォーマンスのボトルネックを解消して最終的にモデルの実行を高速化するのに役立ちます。 このガイドでは、プロファイラのインストール方法、利用可能なさまざまなツール、プロファイラのさまざまなパフォーマンスデータ収集モード、およ
TensorFlow、機械学習の開発を加速するオープンソースツールが拡充〜Google I/O 2023から Image credit: Google 5月10日の Google I/O における大きな人工知能(AI)に関するニュースは、大規模言語モデル「PaLM 2」の発表だが、このイベントにおけるAIニュースはそれだけではない。 Google は、オープンソースの機械学習(ML)技術のアップデートと、成長中の TensorFlow エコシステムの機能強化を相次いで発表した。TensorFlow は、Google が主導するオープンソース技術の取り組みで、開発者がモデルを構築して訓練するのに役立つ ML ツールを提供している。 Google は、Google I/O で新技術「DTensor」を発表した。この技術は、MLト レーニングに新しい並列化技術をもたらし、モデルトレーニングとスケ
import tensorflow as tf import tensorflow_model_optimization as tfmot model = tf.keras.Sequential([...]) pruning_schedule = tfmot.sparsity.keras.PolynomialDecay( initial_sparsity=0.0, final_sparsity=0.5, begin_step=2000, end_step=4000) model_for_pruning = tfmot.sparsity.keras.prune_low_magnitude( model, pruning_schedule=pruning_schedule) ... model_for_pruning.fit(...) TensorFlow Model Optimization
深層学習モデルの学習は、学習データの一部を抽出・勾配を計算するミニバッチ学習によって行われることが一般的です。勾配のばらつきを抑えるためには、ある程度のバッチサイズを保持する必要があります。一方で、バッチサイズの上限は利用するマシン(GPUやTPU)のメモリによって制約を受けるため、大規模なモデルや高解像度画像などを用いる際には、バッチサイズを小さくせざるを得ない場合があります。 これに対して複数のGPUや計算ノードを利用できる場合には、並列化によって単一GPUの時よりも大規模な学習を行うことができます。複数の計算機を用いた並列学習(分散学習)には大きく分けてデータ並列とモデル並列が存在しており、合わせて利用することもできます。 データ並列(Data Parallel):ミニバッチを複数の計算機に分散する方法 モデル並列(Model Parallel):一つのモデルを複数の計算機に分散する
はじめに Kerasやtf.kerasのImageDataGeneratorは遅いので、tf.data.Datasetを使って学習を高速化してみます。 今回データ水増しにはKeras Preprocesing Layerを使用します。注:tensorflow2.3.0では使用可能ですが、まだ実験段階の機能とのことです。なのでご注意ください。 環境 python 3.6.9 tensorflow 2.3.0 GPU GTX1060 参考文献 1.TensorFlow公式チュートリアル チュートリアルらしく、step-by-stepでわかりやすいです。 2.TensorFlowで使えるデータセット機能が強かった話 tf.data.Datasetについてメチャクチャわかりやすい解説。とくにshuffleの説明がすごく良かったです。ありがとうございます。 3.scikit-learn、Keras、
はじめに こんにちは。富士通株式会社ICTシステム研究所のMLPerf HPC五人衆です。先週、国際学会SC’21 において、理化学研究所/富士通が共同で開発した新しいスーパーコンピュータ(スパコン)「富岳」がスパコンランキングで4期連続の4冠(TOP500, HPCG, HPL-AI, Graph500)を獲得しましたが、同会議で発表された、実際のディープラーニング(DL)学習処理に特化したMLPerfTM HPC ベンチマークにおいても世界一を獲得しました。 本ブログでは、このMLPerf HPCの一つのアプリケーションであるCosmoFlowの学習を「富岳」で大規模に行い世界一となった、その挑戦についてお話させてもらいます。 はじめに 背景 MLPerf HPCって何?(白幡) CosmoFlowって何?(田渕) 「富岳」って何?(田渕) プロセッサ 通信ネットワーク ストレージ 準
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 日本語 English 1. はじめに いつも左中間を狙うようなプチニッチなふざけた記事ばかりを量産しています。 この記事の手順を実施すると、 最終的に PyTorch製 高精度Semantic Segmentation の U^2-Net を TensorFlow Lite へ変換することができます。 下図のような感じです。 TensorFlow めちゃくちゃ扱いにくいです。 日々公開される最新のとても面白いモデルは軒並みPyTorch実装ですし、なんでTensorFlowで実装してくれないんだ!! と、常日頃思っています。 論文のベ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く