タグ

KLダイバージェンスに関するni66lingのブックマーク (3)

  • Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm

    以前集合やベクトルの類似度の記事を書いたんですが、確率分布の類似度には触れていなかったのでついでに書きました ツイート時間分布の類似度を求める 今回はツイート時間ごとの頻度を正規化して、確率分布とみなして類似度を計算してみます 私のアカウント(以下mainと表記)に対して、私のもう一つのアカウント(以下subと表記)+私がリプライを送ってる数が多い(以下friendと表記)上位5人と比較します subがfriendよりも似た結果になることを期待しています 以下にツイート時間の分布(main + sub + friend 5人)を載せました ある程度似ていますが、人によってそこそこ形が違っていて、特に午前中の投稿時間の差は特徴的に見えます またfriend1の一人だけは大きく違った傾向を示しています 以下ではこれらが定量的にどれぐらい異なるのか類似度を計算して比較していきます グラフを描くの

    Twitterの投稿時間で類似度を計算してみた - 確率分布の類似度 - 唯物是真 @Scaled_Wurm
  • numpyでのKLダイバージェンスとJensen-Shannonダイバージェンスの実装 | Vingow 開発チームブログ

    scipyには距離を測るための手続きが用意されています(scipy.spatial.distance)。ユークリッド距離やcosine距離(cosine類似度)などもあるのですが、確率分布間の距離とも言うべきKLダイバージェンスやJensen-Shannonダイバージェンスなどは実装されていません。ということで、実装してみました。 実装コードだけ見たいという場合は、最後まで読み飛ばしてください。 KLダイバージェンスとJensen-Shannonダイバージェンスについて KLダイバージェンス(カルバック・ライブラー情報量; Kullback–Leibler divergence; 相対エントロピー)とは、分布と分布の差異の大きさ(≠距離)を測るものです。分布と分布があったとき、のに対するKLダイバージェンスは で定義されます。また、クロスエントロピーを使って と定義することもできます。クロ

    numpyでのKLダイバージェンスとJensen-Shannonダイバージェンスの実装 | Vingow 開発チームブログ
  • カルバック・ライブラーダイバージェンスの覚え方とか - シリコンの谷のゾンビ

    久しぶりにブログ記事を書いてみる.リハビリがてらに軽いノリの記事を. 機械学習の勉強を始めてロジスティック回帰あたりに来ると出てくるカルバック・ライブラーダイバージェンス (以下KLd) .機械学習以外の文脈でも分布同士を比較する場合にまっさきに出てくる.僕は輪講などでKLdが出てくるたびに 「ふぅん,ここでカルバック・ライブラーダイバージェンスを使うんだぁ・・・」 とか言って通ぶっていたけれど,実は空で式を書けなかった.実に痛い子である.だって覚えづらい.とにかく覚えづらい. だっけ? だっけ? Q/P とか P/Q とかせっかく分子分母の順番を覚えても先頭にマイナスつけると分子分母が入れ替わるからまた性質が悪い. というわけで「じゃあちょっと書いてみて」と先生に当てられた際に,黒板に向かってスラスラと書くための覚え方を紹介してみる. さて,KLdといえば (非対称な) 分布の類似度であ

    カルバック・ライブラーダイバージェンスの覚え方とか - シリコンの谷のゾンビ
  • 1