これはHierarchical Probabilistic Neural Network Language Model に登場するHierarchical Softmax(以降hSm)について簡単に書くものです. 分類問題(特にsoftmax関数)に関する基本的な知識を必要とします.あとハフマン木がどのように構成されるかについて知っている方と理解がスムーズに進むかと思います. 手法の背景 Neural Networkを用いて文字列の生成をする場合,一般にラベル(単語)の予測にはSoftmax関数が用いられる.Softmax関数は$m_l = \langle \mathbf{w}_l, \mathbf{x} \rangle$とした時, で定義される関数である.自然言語で語彙を考える場合,辞書は数万単位のサイズになる.そのため,$Z=\sum_k^K exp(m_k)$の計算が非常にハイコスト
![Hierarchical Softmaxの性質 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/cbc1f0f7d57c0fbd7dc87d81bc07542c36a83eff/height=288;version=1;width=512/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fqiita-fb-2887e7b4aad86fd8c25cea84846f2236.png)