タグ

ブックマーク / jetbead.hatenablog.com (3)

  • 逐次確率比検定を試す - Negative/Positive Thinking

    はじめに あらかじめ標サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、 チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。 逐次確率比検定とは ベイズ統計学の枠組みで、ベイズ更新の機能を通して1つずつ標抽出していきながら同時に検定にも用いる事ができる 逐次決定過程 : 標抽出をするたびに判断を行い、結論がでたと認められるタイミングで停止する過程 行動 action0 : 結論を保留し、標抽出を再度行う action1 : 帰無仮説H1を採択 action2 : 対立仮説H2を採択 尤度比検定(Likelihood Ratio Test) 「尤度比」を検定統計量として行う統計学的検定の総称 尤度比λ=(Π^n_{i=1}{f(Xi|θ1}) / (Π^n_{i=1}{f(Xi|θ2}) 帰無仮説H1 : θ

    逐次確率比検定を試す - Negative/Positive Thinking
  • 言語モデル構築Toolメモ - Negative/Positive Thinking

    はじめに 世の中には言語モデルを構築するToolkitはたくさんあるということで、簡単に探してみた。 言語モデルツールキット SRILM - The SRI Language Modeling Toolkit http://www.speech.sri.com/projects/srilm/ Palmkit - a statistical language modeling toolkit http://palmkit.sourceforge.net/ Kylm - 京都言語モデルツールキット http://www.phontron.com/kylm/index-ja.html CMU SLM Toolkit http://www.speech.cs.cmu.edu/SLM_info.html KenLM - Faster and Smaller Language Model Querie

    言語モデル構築Toolメモ - Negative/Positive Thinking
  • 大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

    はじめに 大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。 大規模テキストにおけるN-gram統計の取り方 岩波講座ソフトウェア科学15「自然言語処理」 論文: http://ci.nii.ac.jp/naid/110002934647 手順 ngramを取りたい文章を1つの文として扱う この文をメモリに読み込み、各文字の先頭アドレスを保持する配列を作成 その先頭アドレスの場所の文字から文最後までの部分文字列を1つの単語とみる この単語を辞書順に並び替える(アドレス配列だけ) ソートした単語の順番で、次の単語と「先頭から共通している文字数」を保持する配列を作成 Ngramをカウントするときは、単語の

    大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
  • 1