タグ

ブックマーク / shuyo.hatenablog.com (13)

  • 「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について - 木曜不足

    昨日の「続・わかりやすいパターン認識」読書会にて、「ホップの壺や中華料理店過程のシミュレーションをみると、これを使うと均等にクラスタリングされるのではなく、クラスタサイズが大きいものから順に小さくなっていくようなクラスタリングがされるように見えるのだが、その認識で正しいのか」といった感じの質疑があった。 いい質問。 実は「続・わかりやすいパターン認識」(以降「ぞくパタ」)では、 p225 の「クラスタリングの事前確率の考え方」のところに、ダイレクトにではないがその質問の答えにつながることが書いてあったりする。coffee break というコラムの形になっているので、つい読み飛ばしちゃった人も多いかもしれないが、結構大事なことが書いてあるので一度じっくり読んでみるといい。 そのあたりも含めて読書会でフォローした内容をここにメモしておく。 まずそもそもの話として。 ベイズにおいて、事前確率(

    「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について - 木曜不足
  • PRML ガール 〜とある文芸部の統計女子〜 - 木曜不足

    これは「PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜」の幕間的なお話です。 未読の方は先にそちらをどうぞ。 PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足 「先輩、先輩。我らが PRML ガールの評判聞きました?」 「聞いてない」 「やっぱり気になりますよねえ。ねえ?」 「僕は別に」 「……」 「……わかったわかった。どんな評判なの?」 「評判というか苦情ですかね。『 PRML ガール言うくせに PRML 関係ないやん!』みたいな」 「まあ、情報量とエントロピーの話しかしてないし」 「『あとがきがわりの AC ガール』(暗黒通信団刊行の書籍『PRML ガール』に収録)に至っては選択公理ですからねえ。そんな評判を跳ね返すためには、紛れもなく PRML ってテーマをここらで一発取り扱っておくべきなんじゃない

    PRML ガール 〜とある文芸部の統計女子〜 - 木曜不足
    tnal
    tnal 2014/01/30
  • WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。 - 木曜不足

    11/27-28 に京都で開催された WebDB Forum 2013(第6回 Webとデータベースに関するフォーラム) の、サイボウズの技術報告セッションにて「どの言語でつぶやかれたのか、機械が知る方法」という題で発表させてもらいました。聞いて下さった方(ustream 中継含む)、関係各位、ありがとうございました。 発表資料はこちら。 どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013 from Shuyo Nakatani テーマは過去に発表済みの「∞-gram ロジスティック回帰を使った短文言語判定」なので、技術的に目新しいことは特にない。実装が新しくなったり、細かい工夫はちらほらなくもないんだけど、そのあたりは基端折ってしまったし。20分ちょっとの発表時間でモデルの話をすると大火傷を負うことは身にしみてわかっちゃったんだ……。 というわけで、「twitter

    WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。 - 木曜不足
  • Active Learning を試す(Uncertainly Sampling 編) - 木曜不足

    教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデルの性能向上を測るアプローチの1つ。 具体的には、正解なしデータの中から「こいつの正解がわかれば、モデルが改善する(はず)」というデータを選び、Oracle と呼ばれる「問い合わせれば正解を教えてくれる何か(ヒント:人間)」にそのデータを推薦、得られた正解付きデータを訓練データに追加して、以下繰り返し。 しかし「こいつの正解がわかれば、モデルが改善」を選び出す基準なんて素人考えでも何通りも思いつくわけで、実際 Active Learning のやり口は幾通りもある。 Active Learning Literature Surv

    Active Learning を試す(Uncertainly Sampling 編) - 木曜不足
  • PRML Wednesday (平日読書会) と読み始める人のための参考リンク集 - 木曜不足

    毎週決まった平日の夜に 「機械学習とパターン認識」(PRML) を読み進めようという PRML Wednesday のキックオフにのこのこ顔を出してきた。主催の naoya_t さん&参加者のみなさん、お疲れ様でした&ありがとうございました。 PRML-Wednesday : ATND ほとんど初顔の方ばかりの中で好き放題しゃべってしまい。まあ例によって反省はしていないのだけれど(苦笑)。 会であれこれ言ったこと(めんどくさいので、ここでもう一度繰り返すことはしないw)はあくまで「素人から出発して PRML をひと通り読み終わった個人が、その経験から感じたこと」であり、絶対の正解なんかではない。 気に入らなかったら「なるほど、お前の中では(ry」で片付けて欲しい。勉強なんて続かなかったら意味が無いので、自分が続けられる方法やスタンスを模索して選びとっていかないとしょうがないのだから。 PR

    PRML Wednesday (平日読書会) と読み始める人のための参考リンク集 - 木曜不足
    tnal
    tnal 2013/07/31
  • Kneser-Ney スムージングによる文書生成 - 木曜不足

    少し前に Kneser-Ney スムージングの性能を測ってみた記事 を書いたが、今回は Kneser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。 スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行1文書の訓練データとみなして Kneser-Ney スムージング付きの n-Gram 言語モデルを学習後、文書を生成してファイルに出力する。 オプションもいくつか指定できるが、-h でヘルプを出すか、ソースを読むかしてもらえば。 与えられた文書の確率を Kneser-Ney で計算するには、ディスカウントによって生じる正規化係数の補正を求めるために N1+ などのちょいややこしい値をあらかじめ計算して保持しておかないといけないが、文

    Kneser-Ney スムージングによる文書生成 - 木曜不足
  • 「ぷるむるクイズ☆ head-to-tail で新定理発見!?」の解答編 - 木曜不足

    7/21 開催の PRML(パターン認識と機械学習) 読書会 復々習レーンにのこのこ参加してきました。主催者、発表者、参加者、そして会場を提供してくださったニフティさん、お疲れさまでした&ありがとうございました。 PRML復々習レーン #12 : ATND なんか TokyoNLP が無くなってからまるで命の火が消えたように最近勉強会系なもの参加してないから久しぶりにどこか行くかー、うん、なんというか当にいろいろお世話になった PRML 読書会に、せっかくだから微力ながらもわずかばかり恩返し的なことができると嬉しいよね、よく見たら復々習レーンも8章突入という「最大の途中参加チャーンス!」、「長い PRML の中で一番替えの効かない大事なとこなのにわかりにくくて、気持ちいいツッコミどころ満載!!」というタイミング的にばっちり、これはもう行くしか、みたいな感じで。 最初の内はそれでも遠慮がち

    「ぷるむるクイズ☆ head-to-tail で新定理発見!?」の解答編 - 木曜不足
    tnal
    tnal 2013/07/23
  • 「ぷるむるクイズ☆2: tail-to-tail で話が違う!?」の解答編 - 木曜不足

    下巻で一番大切な一文は p73 の「グラフはリンクが存在しないことをもって分布のクラスの性質に関する情報を表現する」やねんって儂が言わんかったら誰が言うてくれるねん! という使命感に思わず燃えてしまう PRML 第8章「グラフィカルモデル」(半分嘘)。 大事なことはしっかりきちんと書いてはあるんだけどいささか伝わりにくい、というのは PRML 8 章の全編にわたって共通しちゃっている。 実は「ぷるむるクイズ」第2問は、そんな「伝わりにくい大事なこと」の1つから出題していた。 ぷるむるクイズ☆2: tail-to-tail で話が違う!? - Mi manca qualche giovedi`? 問題文は上のリンクを参照してもらうとして、以下解答編。 - ぷるむるクイズ☆2: tail-to-tail で話が違う!? - Mi manca qualche giovedi`? の解答 「グラ

    「ぷるむるクイズ☆2: tail-to-tail で話が違う!?」の解答編 - 木曜不足
    tnal
    tnal 2013/07/23
  • PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足

    放課後の学は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。 振り返ってその先客をよく眺めると、ツインテールの頭をどこか見覚えのある黄色いに乗せて、机に突っ伏すようにして寝ていた。カズは思わず近寄って、の正体を確認するためにのぞき込もうとしたそのとき。 「やっぱ、わかんない! ……って、ひゃあ!?」 「わわっ」 突然跳ね起きたその生徒は、目と鼻の先にいたカズの姿にびっくりして悲鳴を上げた。カズもやはり驚きうろたえてしまった。 二人してしばらくそのまま息をのむようにして顔を見合わせていたが、そのうちどちらともなくぷっと吹き出した。 「あはは、ごめん……す

    PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足
    tnal
    tnal 2013/01/17
  • 言語判定のモデルパラメータを自己組織化マップで可視化 - 木曜不足

    サイボウズでも巷の流行りに乗っかって、アドベントカレンダーなるものをやってて、担当した記事が今日公開された。 言語判定の仕組み - Cybozu Inside Out | サイボウズエンジニアのブログ 通常のアドベントカレンダーと違って、テーマは「技術ならなんでも」って広すぎるやろー。というわけで言語処理な人には当たり前で、それ以外の人にはおそらく興味がないという、なかなかニッチな記事に(よく言えば)。 当は「なるほど、わからん」と言ってもらえるような記事が書きたくて、いくつかネタ候補を用意したんだけど、ことごとく自らボツに。実は先週の Kneser-Ney perplexity 記事もそんなボツネタの1つ。あの記事を一般技術者向けの Cybozu Inside Out に書いてみるという誘惑もあったんだけどねw 他にも ldig のパラメータを可視化して遊んでみるというネタもあって、こ

    言語判定のモデルパラメータを自己組織化マップで可視化 - 木曜不足
  • 「プログラマが本当に理解するには実装しないといけない」か - 木曜不足

    ジュンク堂池袋店にて 10/11 に行われた「パターン認識と機械学習」(PRML) 愛好家の集まり、じゃあなかった、トークセッションにのこのこ行ってきた、ばかりか前でしゃべってきた。ありがとうございました&お疲れ様でした>各位 PRML同人誌 『パターン認識と機械学習の学習』(暗黒通信団) 刊行記念トークセッション 「今度こそわかる!? PRMLの学習の学習」 http://www.junkudo.co.jp/tenpo/evtalk.html#20121011_talk 参加して下さった上に感想までブログにしたためて下さった方には感謝感謝なわけだが、そういったブログの中で、@yag_ays さんがちょうど今気にしていたことを書かれていたので、ちょこっと紹介。 「今度こそわかる!? PRMLの学習の学習」に参加しました - Wolfeyes Bioinformatics beta 余談:

    「プログラマが本当に理解するには実装しないといけない」か - 木曜不足
  • (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足

    7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Measures を紹介してみた。発表資料はこちら。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.slideshare.net 論文では Stick Breaking Process と Polya Urn の2つでモデルを表現していたが、そのあとどうせ Gibbs s

    (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足
  • サイボウズ・ラボユースってなに? - 木曜不足

    宣伝です。 サイボウズ・ラボユースの最終成果報告会が来週 3/26(月) に開かれます。 この報告会は第2期募集説明会も兼ねています。 サイボウズ・ラボユース ブログ http://cybozulabs-youth.blogspot.jp/ 第1期サイボウズ・ラボユース 最終成果報告会(若干残席有り) https://docs.google.com/spreadsheet/viewform?formkey=dHFGN3NpSFF5MVNQLUdHZG80Q01QLUE6MQ 最終成果報告会 参加申し込み(atnd枠/満席) http://atnd.org/events/26861 サイボウズ・ラボユースとはエンジニア志望の学生にソフトウェアの開発支援を行う制度、みたいな抑揚のない通り一遍の説明ではとても伝わるまいと思うので、もう少し柔らかく噛み砕いてみる。 サイボウズ・ラボユースで「何をや

    サイボウズ・ラボユースってなに? - 木曜不足
  • 1