タグ

機械学習に関するronekkoのブックマーク (61)

  • 研究の掃溜ノオト Gaussian Processes on Python

    [PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

    ronekko
    ronekko 2011/06/08
    ガウス過程で非線形回帰
  • 私のブックマーク: 強化学習

    東京大学 総括プロジェクト機構 牧野 貴樹 はじめに 試行錯誤を通じて環境に適応する学習・制御の枠組みである強化学習について、内容は知らなくとも、耳にしたことのある方は多いと思います。ロボットの制御における行動選択の要として、また、神経科学における報酬・学習のシステムを理解するための鍵として、多くの研究がすすめられている分野です。 ここでは、強化学習の研究に関するページやリソースを紹介します。 強化学習入門 強化学習とは? http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html 九州大学の木村 元先生のページです。web 上で強化学習を日語で勉強したいなら、ここからはじめるといいでしょう。1999年の記事なので、多少古いですが、考え方を理解する入口としては十分な内容です。 Reinforcement Learning: An In

  • Former Homepage for Erik Sudderth

    Erik Sudderth has moved to the University of California, Irvine: http://www.ics.uci.edu/~sudderth/ You should be redirected momentarily...

  • Hierarchical Dirichlet Processに関するメモ - yasuhisa's blog

    自分用メモ。例によってすげー基っぽいことを書いていく。HDPの前のDP関係は昔ちょっとメモ書きを書いている。 www.yasuhisay.info 全体的なこと 客はdocument levelでCRPしていく 料理はcorpus levelでCRPしていく(!) HDPはこの2段階(というか2つ)のCRPで構成される document levelだけではコーパス間の情報を共有できないが、料理はcorpus levelなのでこれを使って共有できる もちろんdocument levelのものもあるので「このdocumentではこういう単語が出やすい」という風なLDA風のこともやっている document内のクラスタリングとdocument横断でのクラスタリングを同時に走らせているようなイメージ(あまり自信はない) 生成過程こんなイメージ。HDPの元論文にある通り(P13の3つ目のやり方)、

    Hierarchical Dirichlet Processに関するメモ - yasuhisa's blog
  • Graham Neubig's Teaching

    Classes Spring 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS1

    ronekko
    ronekko 2011/03/31
    パラメトリック・ノンパラベイズ+ギブスサンプリングによるHMM
  • UCI Machine Learning Repository

    For each text collection, D is the number of documents, W is the number of words in the vocabulary, and N is the total number of words in the collection (below, NNZ is the number of nonzero counts in the bag-of-words). After tokenization and removal of stopwords, the vocabulary of unique words was truncated by only keeping words that occurred more than ten times. Individual document names (i.e. a

    ronekko
    ronekko 2011/03/16
    BoW化済み英語コーパス
  • L1正則化で重みが0につぶれる理由

    L1正則化、つまり正則化項としてL1-normを使うとパラメタの大部分が0につぶれてモデルがコンパクトになるよという話をよく聞くと思います。初めて聞くと、何で?と思われるかと思います。先日の岡野原握手会でもこの話題がさらっとでて、@hillbigさんはよく微分した形でこれを説明しています(「押すなよ押すなよー」)。私は目的関数の形で理解した方がわかりやすいと思っているので、それを紹介。 まず、正則化項の入っていない凸な目的関数を考えます。 普通パラメタベクトルは多次元なので、多次元の山みたいな形になりますが、ここでは1次元だと思いましょう。この時点で最適値は(頂点の位置)は3です。これに正則化項を足します。L2だとこんな形をしています、というか0を中心とする放物線です。 足しましょう。 足すと0に向かってシフトすることがわかるでしょう。L2正則化の式は原点中心の山なので、元の山(頂点がどこ

    L1正則化で重みが0につぶれる理由
  • LDAのコードをC++で書いてみた - 旅日記

    前回の記事で思ったより勉強になったので、調子に乗って再び id:tsubosaka さんのJavaで書かれたLDAの実装をC++で書いてみました。ベースとなる手法は同じく collapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004) です。動作確認は g++ 4.3.3 (Ubuntu 9.04) で行っています。ソースコードは前回のARROWよりかなり長くなってしまいました。今度から長い場合は github あたりにアップするかもしれません。 2010.01.08追記: pcomp.h のソースが抜けていたので追加しました。 2010.01.09追記: メモリのバグを修正しました。 インストール g++ -Wall -O2 -c lda.cc g++ -Wall -O2 -c main.cc g++ -Wall -O2 -o l

    LDAのコードをC++で書いてみた - 旅日記
  • Tomonari Masada @ Nagasaki University : memo

    + Lingbo Li et al.のOn the Integration of Topic Modeling and Dictionary Learningの式解説 + Paisley and CarinのNonparametric Factor Analysis with Beta Process Priorsの式解説 + ガウス分布の分散が指数分布に従うとして分散を積分消去するとラプラス分布が得られることの証明 ... Sparse learningでよく使われる事実の初等的(=特性関数を使わない)証明です。. + Infinite Latent Process Decomposition ... An extended version of my poster paper accepted for BIBM 2010. + IBPのVBの説明 ... Indian Buffet P

  • LDA (Latent Dirichlet Allocation) の更新式の崩壊型ギブスサンプリングからの導出

    LDA (Latent Dirichlet Allocation) は文書の生成モデルの代表的なものであり、文書集合の背後に潜む潜在的なトピック構造を推定する上で大変有効なものである。 D. M. Blei, A. Y. Ng, and M. I. Jordan, ``Latent Dirichlet Allocation,'' Journal of Machine Learning Research, vol.3, pp.993-1022, 2003. 上記の論文では変分ベイズに基づく学習が行われているが、実装がより容易であるギブスサンプラに基づく方法がその後提案されている。 T. L. Griffiths and M. Steyvers, ``Finding scientific topics,'' Proc. of the National Academy of Sciences o

  • [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記

    最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。 (追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Document Collections (KDD 2009) 論文の話は2つあって一つ目がSparseLDAというCollapsed Gibbs samplerの省メモリかつ高速な方法の提案と2つ目はオンラインで文章が入力されるような場合において訓練データと新規データをどう使うかという戦略について述べて実験している。 Collapsed Gibbs samplerを高速化しようという論文はPorteous et al.(KDD 2008)でも述べられているけどそれよりも2倍ぐらい高速(通

    [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記
  • SVMツールと関連する論文まとめ - EchizenBlog-Zwei

    最近SVM(Support Vector Machine)周りの復習をしているので有名どころのツールと、それに関連する論文をまとめた。完全に個人用メモなので抜けがあるかも。あくまで参考程度に。 ツールは色々あるけれど使うのが目的なら定番のsvmlightやlibsvmがいい気がする。最近だとliblinearが流行っている。SVMといえばカーネル関数とマージン最大化だけれど、最近ではカーネルは線形でいいやという流れになってきている?個人的にはpegasosがわかり易い線形カーネル+オンライン学習になっていて自分で作って遊ぶには良いと思っている。またsvmsgdは"straightforward stochastic gradient descent"と言っているものの非常に高性能で、それを実現するための様々な工夫が施されていて実装を学ぶ上で大変参考になる。ここには挙げていないけれど、線形カ

    SVMツールと関連する論文まとめ - EchizenBlog-Zwei
  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
  • Latent Dirichlet Allocation in C

    Latent Dirichlet allocation This is a C implementation of variational EM for latent Dirichlet allocation (LDA), a topic model for text or other discrete data. LDA allows you to analyze of corpus, and extract the topics that combined to form its documents. For example, click here to see the topics estimated from a small corpus of Associated Press documents. LDA is fully described in Blei et al. (2

  • Practical Machine Learning Lecture: Nonparametric Bayesian methods (Dirichlet processes)

    Nonparametric Bayesian methods (Dirichlet processes) Lecturer: Kurt Miller Date: Nov 19 [Lecture slides] References There are numerous references on Bayesian methods and Markov Chain Monte Carlo (MCMC) techniques. Three useful textbooks are: Bayesian Data Analaysis. Gelman, Carlin, Stern, Rubin. The Bayesian Choice. Robert. Monte Carlo Statistical Methods. Robert, Casella. Unfortunately, there cur

    ronekko
    ronekko 2011/02/01
    ディリクレ過程
  • ディリクレ過程とディリクレ過程混合モデル - yasuhisa's blog

    多項分布とディリクレ分布NLP関係、特に言語モデルなどでは多項分布がよく使われる(N個のデータがあったときに、Aに1つ、Bに3つ…というような感じ)。言語モデルを作るときにはゼロ頻度問題が常に問題となるので、多項分布のパラメータを最尤推定で求めたものを使っては危険。なので、バックオフをするなど、discountingをするのが普通である。この問題をベイズ流に解決しようとすると、事前分布を置くということになる。多項分布の共役事前分布はディリクレ分布となっていて、ここに二つの分布の関係性が出てくる(see also PRML2章)。 通常のパラメトリックベイズモデルにおける混合モデルベイズ推定では、なんでも確率変数と考えて事前分布をおいたりできることから、パラメータの分布、その事前分布というのを考えることができた。ここで、一歩高い視点から見てみることにしよう。どういうことをやるかというと、「確

    ディリクレ過程とディリクレ過程混合モデル - yasuhisa's blog
  • BLOG::broomie.net: 機械学習・自然言語処理のリソースリンク集

    いつもネット上で機械学習NLPに関する便利そうなツールや,有用なドキュメント,動画,ツールなどをメモしているのですが,今後の調査のためにどこかに一つに集約しておきたいなあ,と思い,この記事に集約しておくことにしました.昨今,自動リンク集や,自動インデックス作成に関して研究が盛んにされていますが,これは人力リンク集です!リンク先はほとんどさらっとしか見ていないので当に有用かどうか保証できませんが,興味を持ったものは掘り下げて別の記事で紹介したいと思います.おもしろいものを見つけしだい,このエントリーは更新していきたいと思います. ※ 有名どころをカバーしているわけではありません,あくまで気まぐれで追加していきます... ※ いくつかカテゴリ間で重複します 解説・読み物系リソース 全般 Statistical Data Mining Tutorials Tutorial Slides by

  • BLOG::broomie.net: 機械学習の勉強を始めるには

    thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

  • Machine learning classifier gallery

    Introduction Machine learning (ML) research with classifiers usually emphasizes quantitative evaluation, i.e. measuring accuracy, AUC or some other performance metric. But it's also useful to visualize what classifier algorithms do with different datasets. This is the index page of a "machine learning classifier gallery" which shows the results of numerous experiments on ML algorithms when applied

  • rainsoft.de steht zum Verkauf

    Die Domain rainsoft.de wird vom Inhaber im Marktplatz angeboten. Sie können diese Domain jetzt erwerben! Der Inhaber dieser Domain parkt diese beim Domain-Parking-Programm. ein Gebot abgeben

    ronekko
    ronekko 2010/12/24
    ガウス過程による非線形回帰