相互情報量を用いた特徴選択(2010/6/19)のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互情報量もカイ二乗値もカテゴリと単語がどれくらい依存しているかを表す尺度なのでアプローチは似ている感じがします。IIRの13.5を参考にして実装します。 カイ二乗値 カイ二乗値の定義は、 です。NやEが出てきますが、下のようなクロス表を用いて計算します。たとえば、単語「iPhone」とカテゴリ「IT」のカイ二乗値を求めたいとき、クロス表は下のようになります。たとえば、カテゴリがITで単語iPhoneを含む文書はデータ中にN11個あるなどと解釈します。 カテゴリがITである カテゴリがITでない 計 単語iPhoneを含む N11 (E11) N10
![カイ二乗値を用いた特徴選択 - 人工知能に関する断創録](https://cdn-ak-scissors.b.st-hatena.com/image/square/5e7bbb0efbac1e73fd47c9fe5d4cac092ef68957/height=288;version=1;width=512/http%3A%2F%2Fhatenablog.com%2Fimages%2Ftheme%2Fog-image-1500.gif)