teddy-gのブックマーク / 2020年5月28日

自然言語処理における自己相互情報量 (Pointwise Mutual Information, PMI)

11 users
camberbridge.github.io
テクノロジー

自己相互情報量とは, 2つの事象の間の関連度合いを測る尺度である(負から正までの値をとる). 自然言語処理では自己相互情報量が相互情報量と呼ばれることがある. しかし, 情報理論で定義される相互情報量(後述する)とは全く異なるため, 自己相互情報量と呼ぶのが賢明である. 自然言語処理に関する本や論文では略称のPMIがよく用いられる. PMIの定義確率変数のある実現値xと, 別の確率変数のある実現値yに対して, 自己相互情報量PMI(x, y)は, $PMI(x, y) = \log_2\frac{P(x, y)}{P(x)P(y)}$ ・・・(1) と定義され, 値が大きければ大きいほどxとyの関連している度合いが強い. PMIが正の値の場合 $P(x, y) > P(x)P(y)$ ⇒ $PMI(x, y) > 0$ xとyが一緒に出現しやすい. (独立よりも)共起しやすい傾向にある.

はてなブックマーク

タグ

2020年5月28日のブックマーク (1件)

自然言語処理における自己相互情報量 (Pointwise Mutual Information, PMI)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス