タグ

2010年1月25日のブックマーク (2件)

  • NLTK Bookで教師なし形態素解析 - nokunoの日記

    意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

  • シンプソンのパラドックスの図解 - 社会学者の研究メモ

    まず、シンプソンのパラドックスというのは以下のような状態のこと。新薬の旧薬に対する生存率の優位性を考えてみましょう。 死亡 生存 旧薬 600 500 新薬 900 100 これだけみると、旧薬生存のオッズは0.83、新薬生存のオッズは0.11、オッズ比0.13で新薬の方が圧倒的に死亡しやすいということになります。ここで第3の変数である性別を導入し、層別分割表を書いてみると... 女 死亡 生存 男 死亡 生存 旧薬 100 5 旧薬 500 495 新薬 890 88 新薬 10 12 となり、女の新薬生存のオッズ比は1.98、男のオッズ比は1.21となり、どちらもプラスになります。男女の区別なくデータを見たときは新薬が不利だったのが、男女別にすると新薬が有利になるため、パラドックスと呼ばれています。なぜこれが生じるかというと、男女で薬の効き方の方向は同じ(プラス)だが、全体的に死亡率の

    シンプソンのパラドックスの図解 - 社会学者の研究メモ