タグ

ブックマーク / www1.doshisha.ac.jp/~mjin (1)

  • 統計的テキスト解析(9)~テキストにおける情報量~

    データが、ある母集団から得られる確率を尤度(ゆうど,Likelihood)と呼ぶ。1枚のコインを100回投げた結果、{表}が48回現れたとする。もし、各面が現れる確率が1/2であることがわかっていれば、48/100≒0.5であるから、{表}が現れる尤度は1/2になる。しかし、ゆがみがあるコインの場合は、ゆがみに関する規則(あるいは関数)を考えることが必要である。ゆがみがあるコインの各面が現れる確率を左右する要因をθとすると、尤度はθの関数である。θをパラメータと呼ぶ。ポアソン分布の場合はλ、正規分布の場合はμ,ρがパラメータθである。 確率は、母集団において事象が起こる率であり、尤度は、標データと仮説のもとで得られた、事象が母集団で起こりそうな度合(尤もらしい度合=尤度)である。ここでの仮説は、データが従うと仮定したモデルである。 データを統計的に分析する際は、しばしば標データを用

  • 1