この投稿は、HuggingFaceの機械学習エンジニアであるMorganFuntowiczとMicrosoftのシニアソフトウェアエンジニアであるYufengLiによって書かれました。 自然言語処理(NLP)に使用されるTransformerモデルは大きいです。BERT-base-uncasedには約1億1000万のパラメーターがあり、RoBERTa-baseには約1億2500万のパラメーターがあり、GPT-2には約1億1700万のパラメーターがあります。各パラメーターは、32ビット(FP32)を必要とする浮動小数点数です。これは、これらのモデルのファイルサイズが、それらが消費するメモリと同様に巨大であることを意味します。これらすべてのビットで発生する必要のあるすべての計算は言うまでもありません。 これらの課題により、メモリとコンピューティングリソースが限られているクライアントデバイスでト