タグ

MLに関するsleepy_yoshiのブックマーク (217)

  • SPAMS

    About For any question related to the use or development of SPAMS, you can contact us at "spams.dev'AT'inria.fr" (replace 'AT' by @). What is SPAMS? SPAMS (SPArse Modeling Software) is an optimization toolbox for solving various sparse estimation problems. Dictionary learning and matrix factorization (NMF, sparse PCA, ...) Solving sparse decomposition problems with LARS, coordinate descent, OMP, S

  • CS 229: Machine Learning Final Projects, Autumn 2014

    CS 229 Machine Learning Final Projects, Autumn 2014 Nonlinear Reconstruction of Genetic Networks Implicated in AML.Aaron Goebel, Mihir Mongia .[pdf] Can Machines Learn Genres.Aaron Kravitz, Eliza Lupone, Ryan Diaz.[pdf] Identifying Gender From Facial Features.Abhimanyu Bannerjee, Asha Chigurupati.[pdf] Equation to LaTeX.Abhinav Rastogi, Sevy Harris.[pdf] Intensity prediction using DYFI.Abhineet Gu

  • OpenML

  • Selecting good features – Part III: random forests | Diving into data

  • Random Forest とその派生アルゴリズム - Sideswipe

    はじめに こんにちは。 Machine Learning Advent Calendar 2013、 12月4日担当のkazoo04です。 最近引っ越しをしまして、家ではインターネットが使えないつらい生活を送っています。 今日は最近気になってるアルゴリズムである Random Forest や、その派生アルゴリズムについて紹介したいと思います。 Random Forest はその使いやすさや性能の高さ、 Kinect による身体部位推定などで利用されていることから近年注目されており、この記事をご覧の方もよくご存知かと思います。 社内でも RF を便利に扱えたり、高速に計算したり、AWS で大量のデータを扱ったりするミドルウェアやライブラリを作ったりしています。 最近はさらに色々な応用例が発表されたり、面白そうな派生アルゴリズムが出てきたので一部ご紹介します。 Random Forest R

    Random Forest とその派生アルゴリズム - Sideswipe
  • 0が多すぎるデータでの最尤推定(EMアルゴリズム) - Qiita

    webサイトのログ分析のような、「疎」なデータをいじっていると、大体 *分布なんだけど0のデータが多すぎるよん、という事はよく有る。そういう時は、zero inflated * distribution というのの出番らしい。 これは、要するに、0に確率が集中したデルタ分布と、普通の ** 分布との混合分布で、EMアルゴリズムで最尤推定出来る。 参考文献:Murphy, Kevin P. Machine learning: a probabilistic perspective. MIT Press, 2012. の、Chap.11 zero inflated geometric distribution の例 ソース num <- 1000 eps <- 0.3 prob <- 0.2 z <- ifelse(runif(num) < eps, 1, 0) y <- ifelse(z==

    0が多すぎるデータでの最尤推定(EMアルゴリズム) - Qiita
  • Factorization Machinesについて調べてみた - Qiita

    21日のアドベントカレンダーを2日遅れでお届けしております。 忘年会シーズンに入る前に調べておけばよかったと反省するばかり。二日酔いが辛い…。 気を取り直して、今回はFactorization Machines(以下、FM)について書いていきます。 1ヶ月ほど前にRecSys2014読み会で知ってから結構気になっていたで、調べてみた結果をまとめています。 FMはRendleさんが2010年にICDMに出したのが初出の様なので、割りと前から存在していたのですが、完全にノーマークでした。研究はRendleさんがほぼメインで行っている様ですが、KDD2014のNetflixが出しているまとめにも載っているので、業界的には結構有名なんだろうと思います。ノーマークだったけどorz はじめに 協調フィルタ系のレコメンドにトレンドについては、 Collaborative Filtering(CF) →

    Factorization Machinesについて調べてみた - Qiita
  • libFM

    libFM: Factorization Machine Library Author: Steffen Rendle Factorization machines (FM) are a generic approach that allows to mimic most factorization models by feature engineering. This way, factorization machines combine the generality of feature engineering with the superiority of factorization models in estimating interactions between categorical variables of large domain. libFM is a software

  • 条件付き確率場の推論と学習

    2. 目次 1. コンピュータビジョンと条件付き確率場 2. マルコフ確率場 3. 最適化手法 1. 平均場近似 2. 確率伝搬法(max-product, sum-product) 4. 条件付き確率場とその学習 参考文献 Conditional Random Fields(CVPR2011 Tutorial) http://www.nowozin.net/sebastian/cvpr2011tutorial/slides/talk-crf.pdf Understanding Belief Propagation and Its Generalizations http://www.merl.com/papers/docs/TR2001-22.pdf

    条件付き確率場の推論と学習
  • ランダムフォレストのつかいかた - じじいのプログラミング

    この記事はCompetitive Programming Advent Calendar 2014 - PARTAKE24日目の記事です。関連記事に実装編もあります。 ランダムフォレストのつくりかた(C++の実装例つき) - じじいのプログラミング 今年は、TopCoderの機械学習マッチに積極的に参加して、経験もいろいろ詰めたので、そのノウハウを公開しようと思います。 自分のやり方は我流なので、アドバイスをいただけると、とてもうれしいです。 この記事にはランダムフォレストの説明はありません。ネット上に良い記事が多くあります。「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京の記事は読みやすいと思いました。 この中のコツのいくつかは、ランダムフォレストに限らず使えると思います。 実装はないので、RやPython

    ランダムフォレストのつかいかた - じじいのプログラミング
  • Group Lassoでグループごと重みが0に潰れる理由 - Preferred Networks Research & Development

    海野です。 先日会社の論文読み会で、ICML2014のMaking the Most of Bag of Words: Sentence Regularization with Alternating Direction Method of Multipliersという論文を紹介しました。さて、この時話題になったのが正則化項をグループ化すると何でグループごと重みが0に潰れるのかという話でした。式を見ても直感的にはわからなかったのですが、得居さんがとてもわかり易い説明をしてくれました。この話、日語で検索してもあまり出てこないのでちょっと紹介します。 まず、Lassoというのは、正則化項にL1normを使ったいわゆるL1正則化のことで、大部分の重みが0に潰れて疎な解が得られます。 \(\Omega_{\mathrm{lasso}}(\mathbf{w}) = \|\mathbf{w}\|_1

    Group Lassoでグループごと重みが0に潰れる理由 - Preferred Networks Research & Development
  • Goでb-bit Minwise Hashing実装した話 - Qiita

    Machine Learning Advent Calendar向けの記事です。 はじめに 最近、個人的にGo言語を触ることがちょいちょいあります。 型があって割と高速に動いてくれて、ポータビリティの高いとこが気に入ってるのですが、何十万・何百万人に推薦データを提供することが使命な会社にいるなら、これを推薦に使おうかなと画策しています。 というわけで今回は、周囲が皆サーベイ論文紹介とかなので若干毛色違いますが、Goでb-bit Minwise Hashingを実装したことについて書きます。 b-bit Minwise Hashingとは Minhash、及びb-bit Minhashについては、既にPFIの岡野原さんによる素晴らしいPostがあるため、詳しく知りたい方はそちら+その中で紹介されている論文を読んでいただくのが一番かと思います。 参考: MinHashによる高速な類似検索 ht

    Goでb-bit Minwise Hashing実装した話 - Qiita
  • Extreme Learning Machine

    はじめまして.デンソーアイティーラボラトリの坂倉義明(@a2ki)と申します.よろしくお願いします. さて,今日は,Extreme Learning Machine(ELM)についてご紹介します.ELMは,Single Layer FeedForward Neural Networkの高速な学習スキームです.今流行のDeep Networkとは真逆ですね. 高速化のポイントは,入力層から隠れ層への重みの学習を諦めることです.具体的な手順として,回帰の場合以下になります. 入力層から隠れ層への重みをランダムに生成 隠れ層の出力(活性化関数を通した)を計算 2と教示データの回帰係数を求め(疑似逆行列)隠れ層から出力層への重みとする そりゃはやいっすよね… ここで疑問になるのが,これで良いのかという点.これに関し提案者は,「有界・区分連続・な活性化関数,十分な数の隠れ層を用いれば,ELMは任意の

    Extreme Learning Machine
  • svmlin: Fast Linear SVM Solvers for Supervised and Semi-supervised Learning

    SVMlin Fast  Linear SVM  Solvers  for Supervised  and Semi-supervised Learning SVMlin  is software package for linear SVMs. It is well-suited to classification problems involving a large number of examples and features.  It is primarily written for sparse  datasets (number of non-zero features in an example is typically small).  It is written in C++ (mostly C). A mex wrapper is available for  MATL

  • Chapelle's Tech Tips

  • 多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei

    機械学習界隈では多変量正規分布のKLダイバージェンスの導出は自明らしく、とくに説明もなく「はいこうなりますね〜簡単ですね〜ははは〜」みたいな感じで軽く流されて死にそうになる。 軽く流されると私のように死んでしまう人もいるかもしれないので導出方法をメモしておく。 前準備 KLダイバージェンスは分布Pに対して分布Qがどれだけ近いかを表し、定義は以下のとおり。 KL(P(x) || Q(x)) = ∫P(x) log(P(x) / Q(x)) dx = ∫P(x) log(P(x)) dx - ∫P(x) log(Q(x)) dxまた多変量正規分布の定義は以下のとおり。 P(x | μ, Σ) = ((2π)^d * |Σ|)^(-1/2) * exp(-1/2 * (x - μ)T Σ^-1 (x - μ)) μ: 平均(d次元(縦)ベクトル) Σ: 共分散行列(d次正方行列) x: データ点

    多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei
  • An Empirical Evaluation of Supervised Learning in High Dimensions - がくしゅう日記

    文献Rich Caruana, Nikos Karampatziakis, Ainur YessenalinaICML2008,2013/05/23 読了STATLOGプロジェクトで色々なデータに対する色々な判別・回帰手法の性能が評価された.その後もSTATLOGプロジェクト以降に流行った手法を用いた評価は続けられたが,いずれにせよ最近は高次元データを扱う必要が増えてきて,色々な手法の精度がデータ次元の増大とともにどのように振る舞うかを系統的に評価することが重要である.ということで,10個の判別手法を10くらいのデータに適用.次元は大体750次元から680000次元まで.Boosted decision treeが4000次元くらいまでは割りとよい.高次元はやっぱりRF. 正直苦手なタイプの研究だけど大事といえば大事.特に評価方法は勉強になる.真似しろといわれるときついけど.

  • 異常検知(変化点検出)をPythonで書いてみた | Kitchen Garden Blog

    データマイニングについて勉強する機会があり、Python言語の練習がてら「変化点検出」と呼ばれる手法について、近似的ではありますが、試作してみました。 変化点検出とは 変化点検出とは、入力データの時系列的な振る舞いの変わり目(変化点)を検出する方法です(山西健司著『データマイニングによる異常検知』)。 データマイニングによる異常検知 山西 健司 Rank / Rating: 302282 / - ASIN: 4320018826 Price: ¥ 3,990 A unifying framework for detecting outliers and change points from time series (Google Scholar) DoS攻撃や新種のワームの発生による、急激な値の変わり目(トラフィック量の急増等)を検知するのに有効とされる手法です。 id:yokkun

  • C++11 で線形分類器の分散オンライン学習器を実装してみた - ny23の日記

    自作の(非)線形分類器のオンライン学習器に, Distributed Training Strategies for the Structured Perceptron (NAACL 2010) で提案されている分散オンライン学習法 (Iterative Parameter Mixing) を実装してみた. 機械学習 × MapReduce - ny23の日記 で調べたのがもう2年以上前のことだから今更感はんぱない.と言っても,自作の分類器に実装したのは線形学習の分散化で,多項式カーネルを使った非線形学習の分散化はパラメタを効率的に分配するのが難しく,まだ実装できていない.というか,線形学習の分散化も平均化を行う場合はパラメタの管理が面倒で,効率的な実装になかなか辿りつけなかった. マルチコア CPU 向けの分散オンライン学習は C++11 で新たに導入された thread と lambd

    C++11 で線形分類器の分散オンライン学習器を実装してみた - ny23の日記
  • 第1回 機械学習を実践する前の基礎知識 | gihyo.jp

    みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています

    第1回 機械学習を実践する前の基礎知識 | gihyo.jp