タグ

machine learningに関するmakimotoのブックマーク (37)

  • 10-701 Machine Learning Fall 2009

  • 機械学習っぽいtwitterユーザとか羅列 - 糞ネット弁慶

    機械学習だったりデータマイニングだったり自然言語処理だったりグラフだったり研究者だったりするけど構わず羅列。followしてると面白い話題が流れてくると思う。 Yasuhisa Yoshida(@syou6162)さん | Twitter ←↓↑→(@mickey24)さん | Twitter きをふし(@kiwofusi)さん | Twitter Mitsumasa Kubo(@beatinaniwa)さん | Twitter イルカ人間(@niam)さん | Twitter t??(@tkf)さん | Twitter Standard ML/Yeah!(@smly)さん | Twitter penguinanaB(@penguinana)さん | Twitterからの返信付きツイート Akso de la Malbono(@Cryolite)さん | Twitter Mamoru Ko

    makimoto
    makimoto 2009/07/20
    ちゃうねん
  • PRML合宿まとめサイト

    ■上巻 第1章: 序論 序論ではまずパターン認識の最も簡単な例として多項式曲線フィッティングを取り上げ、パターン認識・機械学習の基的な枠組みを紹介する。そしてベイズの定理や統計量などの確率論の基礎を導入し、確率論の観点から再び曲線フィッティングを扱う。不確実性はパターン認識の分野における鍵となる概念であり、確率論はこれを定量的に取り扱うための一貫した手法を与えるため、この分野における基礎の中心を担っている点で重要である。 また、回帰・識別の実際の取り扱いに際して必要となる決定理論や、パターン認識・機械学習の理論において役立つ情報理論の導入についても行う。 発表資料はこちら(ppt)とこちら(ppt)。前半では多項式曲線フィッティングの例およびベイズ的確率を、後半では決定理論および情報理論を取り扱っている。 第2章: 確率分布 第2章では二項分布や多項分布、ガウス分布といった各種の確率分布

    makimoto
    makimoto 2009/07/17
    すごい強行軍なスケジュール。こわい。
  • ohmm(オンラインEMによるHMM学習)をリリースしました - DO++

    Ohmm-0.01をリリースしました [Ohmm 日語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。 使う場合は、単語(アクセス履歴とかなんでもよい)に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報(DNA)といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。 ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法(スケーリング、スパースな期待値情報の管理)もいれているので、そこそこ高速に動きます 速度的には100万語、隠れ状

    ohmm(オンラインEMによるHMM学習)をリリースしました - DO++
  • Hadoop上で動く機械学習ライブラリ 「Apache Mahout 0.1」リリース

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop上で動く機械学習ライブラリ 「Apache Mahout 0.1」リリース
  • Apache Mahout - Overview

    For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe

  • Não Aqui! » 10行強で書けるロジスティック回帰モデル学習

    ロジスティック回帰(logistic regression)の学習が,確率的勾配降下法(SGD: stochastic gradient descent)を使って,非常に簡単に書けることを示すPythonコード.コメントや空行を除けば十数行です. リストの内包表記,条件演算子(Cで言う三項演算子),自動的に初期化してくれる辞書型(collections.defaultdict)は,Python以外ではあまり見ないかも知れません. リストの内包表記は,Haskell, OCaml, C#にもあるようなので,結構メジャーかも知れません. [W[x] for x in X] と書くと,「Xに含まれるすべてのxに対し,それぞれW[x]を計算した結果をリストにしたもの」という意味になります.sum関数はリストの値の和を返すので,変数aにはXとWの内積が計算されます. Pythonでは,三項演算子を条

  • ノンパラベイズを勉強してみる (0) - nokunoの日記

    昨日のNL190で以前より日記を拝見させていただいていた持橋さんの発表「ベイズ階層言語モデルによる教師なし形態素解析」がありました。辞書なしで文字単位のテキスト(コーパス)処理をして、情報理論的な基準で形態素解析(というか単語分割)を行うというもので、理論的にもよく考えられているようです。言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いない形態素解析を可能にする。これにより, 教師データの存在しない古文や話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。発表は分かりやすく、結果はかな漢字変換にも応用が効きそうなもので、大変刺激を受けました。理論的な面については付け焼刃でなんとかなるようなものではなさそうなので、持橋さんのサイトで公開されている論文を読みながら勉強してみようと思いま

    makimoto
    makimoto 2009/03/27
    ぼくも勉強したい。
  • DO++: いろんな学会

    ICML/UAI/COLTのaccepted paperが出揃い、ざーっと面白そうなのを片っ端から読んでみました。 ICMLの読んでみた、読んでみたいリスト そのうちピックアップします。 ICMLは強化学習系が多くなっているなぁという気もしたのですがそうでもないかな。 ついでに、私が興味を持ってみている機械学習の学会(と一個ジャーナル)紹介を。これも境界領域なので他の学会で面白い話が発表されたりすることも多いです。 機械学習系 JMLR Journal of Machine Learning Research 機械学習の一番メジャーなジャーナルで出るスピードも速い(その年に学会発表されたものがその年のうちに出てくることも珍しくない)。全部web上からタダで論文を落とせる。よいですね ICML International Conference on Machine Learning 機械学習

    DO++: いろんな学会
  • CRFsuite - CRF Benchmark test -

    This is the list of CRF implementations and versions (the latest as of 1st July 2011) used for the experiments. The experiments use the training and test sets of CoNLL 2000 chunking shared task. We employ the same feature set among different CRF implementations; state (unigram) and transition (bigram) features are generated from the training and test sets by applying the feature template bundled i

    makimoto
    makimoto 2009/03/12
    ……!
  • CRFsuite - A fast implementation of Conditional Random Fields (CRFs)

    CRFsuite is an implementation of Conditional Random Fields (CRFs) [Lafferty 01][Sha 03][Sutton] for labeling sequential data. Among the various implementations of CRFs, this software provides following features. Fast training and tagging. The primary mission of this software is to train and use CRF models as fast as possible. See the benchmark result for more information. Simple data format for tr

  • Workshop on Active Learning for NLP - NLPWiki

    Call for Paper Submissions NAACL HLT 2009 Workshop on Active Learning for Natural Language Processing June 5, 2009, Boulder, Colorado, USA http://nlp.cs.byu.edu/alnlp/ Submission Deadline: March 6, 2009 Endorsed by the following ACL Special Interest Group: SIGANN, Special Interest Group for Annotation Motivation Labeled data is a prerequisite for many popular algorithms in natural language proce

  • projects:sgd [leon.bottou.org]

    Learning algorithms based on Stochastic Gradient approximations are known for their poor performance on optimization tasks and their extremely good performance on machine learning tasks (Bottou and Bousquet, 2008). Despite these proven capabilities, there were lingering concerns about the difficulty of setting the adaptation gains and achieving robust performance. Stochastic gradient algorithms ha

  • complement naive Bayes - 機械学習の「朱鷺の杜Wiki」

    多項モデル† 単純ベイズで文書分類をする場合によく用いられるのが多項モデル. 単純ベイズでは,文書 \(\mathbf{x}_i\) が与えられたとき,クラス \(c\) になる確率は次式 \[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\] \(w\) 種類の語があるとき,文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は,語 \(j\) が文書 \(i\) 内で生じる回数. 多項モデルでは,この要素の頻度が多項分布に従うとする.クラス \(c\) の任意の文書のある語を選んだとき,その語が語 \(j\) である確率を \(\theta_{cj}\) で表す.すると,文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される \[\arg\max_c=\ln\

  • Zinniaの多クラス分類法 - 射撃しつつ前転 改

    ZinniaというSVMベースの新しい手書き文字認識エンジンがリリースされたので、早速ソースコードを少し読んでみた。 文字認識というのは、機械学習では多クラス分類という問題に分類される。しかもクラス数が認識したい文字数(数千文字程度だろう)分だけ存在するという、なかなか計算量的に厳しい問題である。二値分類器を使って多値分類器を構成する方法にはone vs rest, one vs one, その他にもいろいろあるらしいが、その中のどれを使っているのかというところに興味があった。Webによると、50〜100文字/秒の認識速度と書いてあったので、コードを読む前の予測としては、one vs oneかなーと思っていた。(速度的にはone vs oneの方がone vs restより速い。) しかし、そんな予想を裏切り、recognizer.cppの148行めあたりからには以下のようなコードが書いて

    Zinniaの多クラス分類法 - 射撃しつつ前転 改
    makimoto
    makimoto 2008/09/17
    マルチクラス問題。Zinnia は単純な one-vs-rest。
  • Zinnia: 機械学習ベースのポータブルな手書き文字認識エンジン

    Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 主な特徴 機械学習アルゴリズムSVMによる高い認識精度 ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント

  • T-FaNT 08 [PROGRAM]

    Feb 12 (Tue): 10:30-10:50 Opening Remarks and Project Introduction Tsujii, Jun'ichi 10:50-12:10 Session I: New Models for NLP Haghighi, Aria, University of California at Berkeley, USA Slides "Latent Variable Models in NLP" Okanohara, Daisuke, University of Tokyo, Slides "Dualized L1-regularized Log-Linear Models and Its Application in NLP" 12:10-14:00 Lunch Break 14:00-16:00 Session II: Informatio

    makimoto
    makimoto 2008/03/01
    一部スライドが公開されている。
  • Support Vector Machines (SVM) in Ruby - igvita.com

    By Ilya Grigorik on January 07, 2008 Your Family Guy fan-site is riding a wave of viral referrals, the community has grown tenfold in last month alone! First, you've deployed an SVD recommendation system, then you've optimized the site content and layout with the help of decision trees, but of course, that wasn't enough, and you've also added a Bayes classifier to help you filter and rank the cont

  • memolog » Blog Archive » javascriptでSVM

  • nips 2007 tutorial - DO++

    nips 2007(行ってないけど)のtutorialが例年のようにweb上から見れるようになってます [link] たぶんそのうちvideoも公開されるのでしょう。 面白いもの揃いですが、とりあえず目についたのは次の二つかな ・Learning Using Many Examples 非常に大量の訓練用データが使える場合の学習はどうすればいいのという話。結論から言うとStochastic Gradient Descent(確率的勾配降下法)が理論的にも、実践的にも優れている。 パーセプトロンスタイルの学習(Online Passive Agressive Algorithm [pdf])とか、Online Exponentiated Gradient Algorithm[pdf]とか、どんどんオンライン型学習(データまとめて見ないで、一個ずつ見てすぐパラメータ更新する)手法の優位性がどん

    nips 2007 tutorial - DO++