知識蒸留とは、大規模な事前トレーニング済みモデル(「教師モデル」)の学習内容を、より小規模な「生徒モデル」に転送することを目的とした機械学習アプローチです。これは、特に大規模なディープ・ニューラル・ネットワーク向けのモデル圧縮と知識転送の形式として、ディープラーニングで使用されます。 知識蒸留の目標は、より小さなモデルをトレーニングして、より大規模かつ複雑なモデルを模倣するようにすることです。従来のディープラーニングの目的は、人工ニューラル・ネットワークをトレーニングして、その予測をトレーニング・データ・セットで提供されるアウトプット例に近づけることですが、知識蒸留における主な目的は、生徒ネットワークをトレーニングして、教師ネットワークによる予測と一致させることです。 知識蒸留(KD)は、多くの層と学習可能なパラメータを持つ大規模なディープ・ニューラル・ネットワークに最もよく使用されていま