Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more
![Bi-Tempered Logistic Loss for Training Neural Nets with Noisy Data](https://cdn-ak-scissors.b.st-hatena.com/image/square/ab5a50137b5d6b897245562f8ff5c33691bac77e/height=288;version=1;width=512/https%3A%2F%2F1.bp.blogspot.com%2F-eu1Ucf8aNzM%2FXWQMldOSkxI%2FAAAAAAAAEjM%2FRH91dqa8zx88oGuS9QaHaqmzf90QBvJHgCLcBGAs%2Fw1200-h630-p-k-no-nu%2Fimage3.gif)
G. Hintonの"Dark knowledge"のスライドが非常に興味深いので,数式多めにメモ. 通常,多クラス識別での交差エントロピー(cross entropy) は と定義されます.ここで, (は規格化項)ではtrue label(正解クラスなら,他は0)です. 一度 を最小化する訓練(hard target model)をして,出力 が得られたとします. この を使い,の代わりに ()をラベルに見立て, をsoft target modelでの交差エントロピーとします. 適当な温度 (大きめ)と混ぜパラメータ (小さめ,1/(1+T2)程度)を使って交差エントロピーを と定義したモデルがdistilled modelです(多分). コメント頂けるとありがたいです. [12/10追記]:NIPS workshopのペーパーを見て、混ぜパラメータを変更しました。次元を持っている量と
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く