タグ

2020年5月28日のブックマーク (1件)

  • 自然言語処理における自己相互情報量 (Pointwise Mutual Information, PMI)

    自己相互情報量とは, 2つの事象の間の関連度合いを測る尺度である(負から正までの値をとる). 自然言語処理では自己相互情報量が相互情報量と呼ばれることがある. しかし, 情報理論で定義される相互情報量(後述する)とは全く異なるため, 自己相互情報量と呼ぶのが賢明である. 自然言語処理に関するや論文では略称のPMIがよく用いられる. PMIの定義確率変数のある実現値xと, 別の確率変数のある実現値yに対して, 自己相互情報量PMI(x, y)は, $PMI(x, y) = \log_2\frac{P(x, y)}{P(x)P(y)}$ ・・・(1) と定義され, 値が大きければ大きいほどxとyの関連している度合いが強い. PMIが正の値の場合 $P(x, y) > P(x)P(y)$ ⇒ $PMI(x, y) > 0$ xとyが一緒に出現しやすい. (独立よりも)共起しやすい傾向にある.

    teddy-g
    teddy-g 2020/05/28
    PMIは単語の共起確率を計算する。LDAの精度を測るCoherenceの計算法の1つでもある。