ある言語モデルが「次に来る単語」の確率を予測したとします。$P$ を真の分布、$Q$ をモデルの予測分布としたとき、「$Q$ は $P$ にどのくらい近いか」を一つの数字で表せるでしょうか。あるいは、コインを100回投げて60回表が出たとき、「表確率 $0.5$ という仮説」と「$0.6$ という仮説」のどちらが観測データ分布に近いと言えるでしょうか。こうした「2つの確率分布の違いを定量化する」という問いに、情報理論から自然に導かれる答えが KLダイバージェンス (Kullback-Leibler divergence、KL情報量、相対エントロピー) です。 KLダイバージェンスは、機械学習・統計の中核にいる道具です。ニューラルネットの分類で使われるクロスエントロピー損失は実質KL最小化と等価ですし、画像生成で有名な VAE (変分オートエンコーダ) の損失関数には事前分布と近似事後分布の

