タグ

ブックマーク / shuyo.hatenablog.com (5)

  • PRML の読む章・飛ばす章(私家版) - 木曜不足

    機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない……」という奈落に叩き込んでいるという。 サイボウズ・ラボの社内 PRML 読書会でもその現象が発生。見かねた同僚の光成さんが PRML で使われている数学の解説だけではなく、PRML の中で省略されている式変形の過程も含めて書き下したメモ(社内通称:アンチョコ)が暗黒通信団から「機械学習とパターン認識の学習」という同人誌として出版され、全国のジュンク堂で購入可能となるとちょっとしたムーブメントががが。 現在はアマゾンでも購入可能となっているが、もともとのアンチョコも PDF で無料公開(CC-BY ライセンス)されているので、紙のでないと勉強す

    PRML の読む章・飛ばす章(私家版) - 木曜不足
    goinger
    goinger 2012/10/04
  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
  • PRML 読書会 #11 資料(max-sum アルゴリズム) - 木曜不足

    「パターン認識と機械学習」(PRML)読書会 #11 で担当する 8.4.5「max-sum アルゴリズム」の資料です。 8.4.5 max-sum アルゴリズム 8.3 まで モデルを表現するツールとしてグラフィカルモデルを使う 8.4 以降、周辺化や同時分布の大域最大解を求めるツールとしてのグラフィカルモデル 8.4.4 積和(sum-product) : 周辺分布を求める 8.4.5 max-sum : 同時分布の大域最大確率と、それを与える変数の値を求める max-sum algorithm 同時分布の最大解を求めるツール sum-product algorithm において 因子(local function) の対数を取り sum を max におきかえ 単調増加なlogと交換可能 非負な係数に対して分配則が成立 product を sum におきかえ ★注意★ sum-pro

    PRML 読書会 #11 資料(max-sum アルゴリズム) - 木曜不足
    goinger
    goinger 2010/02/17
  • LSH(SimHash) で recall(適合率) を見積もりたい - 木曜不足

    英単語タイピングゲーム iVoca で「おすすめブック」機能をリリースしました。 ブック(単語帳)の画面に、そのブックと似ていて、同じユーザが学習しているブックを自動的に表示します。 英検の単語を集めたブックには英検の、しかもだいたい同じレベルのものを、TOEIC には TOEIC、イタリア語にはイタリア語、ドイツ語にはドイツ語、と ちゃんとおすすめできています。 外国語以外にも 古文の単語を集めたブックには古文、アメリカ合衆国の50州を覚えるブックには世界の首都や都道府県を覚えるブックをおすすめしてくれます。 学びたいブックを見つけやすくなった iVoca をこれからもよろしくお願いします。 以上、よそいきモード終わり。 今回の類似ブック探索には、ソーシャルブックマーク界隈で噂の LSH(Locality Sensitive Hashing)、特に余弦類似度を用いた SimHash を採

    LSH(SimHash) で recall(適合率) を見積もりたい - 木曜不足
    goinger
    goinger 2010/02/17
  • 木曜不足

    2004年ごろに Googleで深層学習が一躍脚光を浴びたとき、画像認識は特徴抽出が難しいので深層学習で良い結果が出るが、自然言語処理は特徴量*1がリッチなので、深層学習を適用するのは難しいだろうと思っていた。 特徴量がリッチとは、例えば「ホームラン」のたった1語でその文はスポーツ、特に野球の話題である可能性が高くなる、みたいな話である。一方、ピクセルの1つが緑であることから何の画像か当てるのは不可能だ。 その後、自然言語処理でも深層学習が当たり前になったのは誰もがご存知のとおりであり、自身の不明を恥じるばかりだ。ただ言い訳をさせてもらえるなら、自然言語処理のえらい先生方も同じように言っていたのだ。 2014年ごろ、LSTM などの深層学習モデルが発展し、自然言語処理でも目覚ましい結果が出始めた。機械翻訳など多くのタスクで、人間の平均といい勝負になったのもこの頃だったと思う。すると、

    木曜不足
    goinger
    goinger 2010/01/01
  • 1