タグ

機械学習に関するsubarukunのブックマーク (9)

  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

    subarukun
    subarukun 2007/08/06
    機械学習に関する情報が満載。管理人は赤穂昭太郎氏。
  • http://diversity-mining.jp/

    subarukun
    subarukun 2007/03/31
    正田先生(長崎大)。確率論的モデリングに関する解説(EMアルゴリズムなど)がある。
  • ちょっと研究 - DO++

    修論が終わって一息ついたのでいろいろやりたかったことをしています ・修論では特徴の組み合わせ(カーネルトリック)を使いたい理由もあり、確率モデルを問題のモデル化に使うのをあきらめたのですが、Gaussian Processはそれができるのではという指摘があり、再度勉強&実装中 ・Google N-gram [link] を使ってスペルチェッカーを作ろうとしたが、とてもでかいので、いいデータ構造が無いかなと模索中。与えられた文章の全ての部分列に対して、大量のキー集合の中から似ているキーを取り出してくる問題。ただし、キーの数は数十億で圧縮しても30Gぐらい ・NIPSで面白そうなやつをいくつか実装してみようと模索中。特に Large Margin Component Analysis [pdf] (井出さんによる解説[ppt])と、Linearly-solvable Markov decisi

    ちょっと研究 - DO++
    subarukun
    subarukun 2007/02/26
    Google N-gram は30GB以上。鹿島さんや井出さんの話題も。
  • ソフトウェア分野の研究開発 / コラム | Ricoh Japan

    | 文字拡大・読み上げ機能 | 個人情報保護について | ご利用条件 | Copyright 1999-2008 Ricoh Company, Ltd. All Rights Reserved.

    subarukun
    subarukun 2007/02/06
    文系的な解説が多くて面白い。誰が書いているんだろう?(sassanoさん経由)
  • 本のフロク: Learning a kernel function for classification with small training samples

    Learning a kernel function for classification with small training samples Learning a kernel function for classification with small training samples http://portal.acm.org/citation.cfm?id=1143895 Boosting margin based distance functions for clustering http://portal.acm.org/citation.cfm?id=1015389 Boostingのテクニックを用いてカーネル学習を行うsemi-supervised learning。Boostingを使うので、学習するカーネルはweak kernel(後述)の線形結合になる。wea

    subarukun
    subarukun 2007/01/25
    僕も機械学習勉強しないとなー。(最近、やたらと査読が回ってくる…)
  • DO++: 教師あり学習の比較

    ICML2006に興味深い論文がありました。 "An Empirical Comparison of Supervised Learning Algorithm", Rich Caruana caruana and Alexandru Niculescu-Mizil [link] 90年代初め以降、数多くの画期的な教師あり学習が提案されてきましたが、どれがいいかを包括的に比較したことはあまりありませんでした (文書分類などでは、SVMとAda-boosting 強いねということだったのですが Sebastiani@ACM Survey 2002) 決着をつけようじゃないかということで、11の問題に対してハイパーパラメータも完璧にチューニングして、いろいろな分類器を比較しているみたいです。比較内容は精度や再現率やクロスエントロピーなど様々で、確率を直接出さないやつはsigmoid関数など単調

    DO++: 教師あり学習の比較
    subarukun
    subarukun 2006/06/13
    教師つき学習もいろいろあるんですね。
  • http://tmasada.exblog.jp/4796003

  • MT - DO++

    機械翻訳の話を御茶ノ水で聞いてきた。 googleの人はWebデータとか対訳コーパスたくさんつかって、かなりいい結果が出たよという話。今年の夏にNIST/MTで発表されるんだとさ。 それに加えて、フレーズとフレーズの意味的近さをフレーズが出現したドキュメント中の単語やフレーズ同士の内積で測るということをいっていた。手法自体は昔からあるものだが、なにしろ80億ページと規模が違う。わざと飛ばしていたのかもしれないが、ぱぱっと飛ばしたスライドにどのように計算をしているか(そして打ち切っているか)が書いてあった。たぶんこれが一番重要。気になる。 質疑応答の時に、Webデータは信頼の無いデータだらけで、フィルタリングとかしているんですかという質問があったが、回答では50%の情報が間違っていても残り50%の正解は収束していてピークがあるから、そこのピークをとればいいよという回答。基的なことだが忘れが

    MT - DO++
    subarukun
    subarukun 2005/06/15
    Google機械翻訳の講演レポ。巨大データのノイズ対策は、正解が収束するピークをとる。F研の翻訳Gの話も。
  • こ、これは - DO++

    subarukun
    subarukun 2005/06/08
    sentiment classification で4~5カテゴリに分類。
  • 1