roba4944のブックマーク - はてなブックマーク

逐次確率比検定を試す - Negative/Positive Thinking
はじめにあらかじめ標本サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。逐次確率比検定とはベイズ統計学の枠組みで、ベイズ更新の機能を通して1つずつ標本抽出していきながら同時に検定にも用いる事ができる逐次決定過程 : 標本抽出をするたびに判断を行い、結論がでたと認められるタイミングで停止する過程行動 action0 : 結論を保留し、標本抽出を再度行う action1 : 帰無仮説H1を採択 action2 : 対立仮説H2を採択尤度比検定(Likelihood Ratio Test) 「尤度比」を検定統計量として行う統計学的検定の総称尤度比λ=(Π^n_{i=1}{f(Xi|θ1}) / (Π^n_{i=1}{f(Xi|θ2}) 帰無仮説H1 : θ
roba4944 2013/10/05
統計学

statistics
リンク
言語モデル構築Toolメモ - Negative/Positive Thinking
はじめに世の中には言語モデルを構築するToolkitはたくさんあるということで、簡単に探してみた。言語モデルツールキット SRILM - The SRI Language Modeling Toolkit http://www.speech.sri.com/projects/srilm/ Palmkit - a statistical language modeling toolkit http://palmkit.sourceforge.net/ Kylm - 京都言語モデルツールキット http://www.phontron.com/kylm/index-ja.html CMU SLM Toolkit http://www.speech.cs.cmu.edu/SLM_info.html KenLM - Faster and Smaller Language Model Querie
roba4944 2012/03/31
Language
リンク
大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。大規模テキストにおけるN-gram統計の取り方岩波講座ソフトウェア科学15「自然言語処理」論文: http://ci.nii.ac.jp/naid/110002934647 手順 ngramを取りたい文章を1つの文として扱うこの文をメモリに読み込み、各文字の先頭アドレスを保持する配列を作成その先頭アドレスの場所の文字から文最後までの部分文字列を1つの単語とみるこの単語を辞書順に並び替える(アドレス配列だけ) ソートした単語の順番で、次の単語と「先頭から共通している文字数」を保持する配列を作成 Ngramをカウントするときは、単語の
roba4944 2011/10/13
ngram

nlp

自然言語処理
リンク
1