goingerのブックマーク - はてなブックマーク

PRML の読む章・飛ばす章(私家版) - 木曜不足

機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない……」という奈落に叩き込んでいるという。サイボウズ・ラボの社内 PRML 読書会でもその現象が発生。見かねた同僚の光成さんが PRML で使われている数学の解説だけではなく、PRML の中で省略されている式変形の過程も含めて書き下したメモ（社内通称：アンチョコ）が暗黒通信団から「機械学習とパターン認識の学習」という同人誌として出版され、全国のジュンク堂で購入可能となるとちょっとしたムーブメントががが。現在はアマゾンでも購入可能となっているが、もともとのアンチョコも PDF で無料公開(CC-BY ライセンス)されているので、紙の本でないと勉強す

goinger 2012/10/04

リンク

自然言語処理勉強会＠東京第1回の資料 - 木曜不足

本日の tokyotextmining こと自然言語処理勉強会＠東京第1回で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。以前、Ruby で作った本文抽出モジュールを機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web本文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

goinger 2010/08/10

リンク

PRML 読書会 #11 資料(max-sum アルゴリズム) - 木曜不足

「パターン認識と機械学習」(PRML)読書会 #11 で担当する 8.4.5「max-sum アルゴリズム」の資料です。 8.4.5 max-sum アルゴリズム 8.3 までモデルを表現するツールとしてグラフィカルモデルを使う 8.4 以降、周辺化や同時分布の大域最大解を求めるツールとしてのグラフィカルモデル 8.4.4 積和(sum-product) : 周辺分布を求める 8.4.5 max-sum : 同時分布の大域最大確率と、それを与える変数の値を求める max-sum algorithm 同時分布の最大解を求めるツール sum-product algorithm において因子(local function) の対数を取り sum を max におきかえ単調増加なlogと交換可能非負な係数に対して分配則が成立 product を sum におきかえ ★注意★ sum-pro

goinger 2010/02/17

ml
ai

リンク

LSH(SimHash) で recall(適合率) を見積もりたい - 木曜不足

英単語タイピングゲーム iVoca で「おすすめブック」機能をリリースしました。ブック(単語帳)の画面に、そのブックと似ていて、同じユーザが学習しているブックを自動的に表示します。英検の単語を集めたブックには英検の、しかもだいたい同じレベルのものを、TOEIC には TOEIC、イタリア語にはイタリア語、ドイツ語にはドイツ語、とちゃんとおすすめできています。外国語以外にも古文の単語を集めたブックには古文、アメリカ合衆国の５０州を覚えるブックには世界の首都や都道府県を覚えるブックをおすすめしてくれます。学びたいブックを見つけやすくなった iVoca をこれからもよろしくお願いします。以上、よそいきモード終わり。今回の類似ブック探索には、ソーシャルブックマーク界隈で噂の LSH(Locality Sensitive Hashing)、特に余弦類似度を用いた SimHash を採

goinger 2010/02/17

ml

リンク

木曜不足

2004年ごろに Google の猫で深層学習が一躍脚光を浴びたとき、画像認識は特徴抽出が難しいので深層学習で良い結果が出るが、自然言語処理は特徴量*1がリッチなので、深層学習を適用するのは難しいだろうと思っていた。特徴量がリッチとは、例えば「ホームラン」のたった１語でその文はスポーツ、特に野球の話題である可能性が高くなる、みたいな話である。一方、ピクセルの１つが緑であることから何の画像か当てるのは不可能だ。その後、自然言語処理でも深層学習が当たり前になったのは誰もがご存知のとおりであり、自身の不明を恥じるばかりだ。ただ言い訳をさせてもらえるなら、自然言語処理のえらい先生方も同じように言っていたのだ。 2014年ごろ、LSTM などの深層学習モデルが発展し、自然言語処理でも目覚ましい結果が出始めた。機械翻訳など多くのタスクで、人間の平均といい勝負になったのもこの頃だったと思う。すると、

goinger 2010/01/01

リンク

はてなブックマーク

タグ

ブックマーク / shuyo.hatenablog.com (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / shuyo.hatenablog.com (5)

PRML の読む章・飛ばす章(私家版) - 木曜不足

自然言語処理勉強会＠東京 第1回 の資料 - 木曜不足

PRML 読書会 #11 資料(max-sum アルゴリズム) - 木曜不足

LSH(SimHash) で recall(適合率) を見積もりたい - 木曜不足

木曜不足

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

自然言語処理勉強会＠東京第1回の資料 - 木曜不足