yowaのブックマーク - はてなブックマーク

yowa id:yowa

ブックマーク / shuyo.hatenablog.com (4)

「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について - 木曜不足
昨日の「続・わかりやすいパターン認識」読書会にて、「ホップの壺や中華料理店過程のシミュレーションをみると、これを使うと均等にクラスタリングされるのではなく、クラスタサイズが大きいものから順に小さくなっていくようなクラスタリングがされるように見えるのだが、その認識で正しいのか」といった感じの質疑があった。いい質問。実は「続・わかりやすいパターン認識」(以降「ぞくパタ」)では、 p225 の「クラスタリングの事前確率の考え方」のところに、ダイレクトにではないがその質問の答えにつながることが書いてあったりする。coffee break というコラムの形になっているので、つい読み飛ばしちゃった人も多いかもしれないが、結構大事なことが書いてあるので一度じっくり読んでみるといい。そのあたりも含めて読書会でフォローした内容をここにメモしておく。まずそもそもの話として。ベイズにおいて、事前確率（
yowa 2015/07/16
b
リンク
Active Learning を試す(Uncertainly Sampling 編) - 木曜不足
教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデルの性能向上を測るアプローチの1つ。具体的には、正解なしデータの中から「こいつの正解がわかれば、モデルが改善する(はず)」というデータを選び、Oracle と呼ばれる「問い合わせれば正解を教えてくれる何か（ヒント：人間）」にそのデータを推薦、得られた正解付きデータを訓練データに追加して、以下繰り返し。しかし「こいつの正解がわかれば、モデルが改善」を選び出す基準なんて素人考えでも何通りも思いつくわけで、実際 Active Learning のやり口は幾通りもある。 Active Learning Literature Surv
yowa 2013/08/05
b

学習
リンク
独断と偏見によるノンパラ入門 - 木曜不足
「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。ノンパラの一番素朴なやつ( K-means とか)は本当にパラメータ無くてデータだけだから納得なんだけど、だんだん欲が出てパラメータ足しちゃったり派生させちゃったりしてるうちに、よくわかんなくなってきちゃったんだろうかねえ。まったく。どれどれ、と英語版 Wikipedia の "Non-parametric statistics" を見たら、なんか意味が4種類くらい書いてあるし。じゃあ名前分けろよ。 en.wikipedia.org とりあえずここで言う「ノンパラ」とは、変数の個数決めなくていい「分布の分布」なメタっぽいやつのこと。つまりディリクレ過程とか、ディリクレ過程とか、そこらへん。「あー、ノンパラベ
yowa 2011/01/06
b

確率

学習
リンク
Zipf則はなぜ成り立つのかの理論的裏付け - 木曜不足
今日の自然言語処理勉強会＠東京にて、Zipf則(ベキ分布)の理論的裏付けとして、ランダムにアルファベット＋空白を生成、それを空白区切りの「単語」と考えると、それらの単語の頻度分布が Zipf に従うんだよ、的なお話が FSNLP に書いてあった。へーで終わらせるんじゃあなくて、そんなの簡単なスクリプトで確認できるからやってみた。まず文字を一様生成にしたところ、1文字単語と2文字単語と3文字単語の生成確率がそれぞれ等しく、その境界で頻度のジャンプが発生するような、明らかに不自然な量子的分布になってしまって、f*r が乱高下する。そこで、実際の英文でのアルファベットの使用頻度をアルファベットの発生率に用いるようにしてみた。 #!/usr/bin/ruby list = "abcdefghijklmnopqrstuvwxyz ".split(//) prob = [ 0.0651738,0
yowa 2010/07/04
言語処理
リンク
1