[B! 機械学習][Algorithm] Glnのブックマーク

Gln id:Gln

機械学習とAlgorithmに関するGlnのブックマーク (13)

AdaGrad+RDAを実装しました。 - EchizenBlog-Zwei
AdaGrad(Adaptive Gradient)というオンライン学習のアルゴリズムを実装しました。 https://github.com/echizentm/AdaGrad 論文: Adaptive Subgradient Methods for Online Learning and Stochastic Optimization(http://www.magicbroom.info/Papers/DuchiHaSi10.pdf) AdaGradはAROWのように重みの更新を適応的に行うことが出来るほか、正則化のアルゴリズムと組み合わせることが出来るという利点があります。このためFOBOSやRDAなどを用いたL1正則化によって特徴量を疎にすることが出来ます。今回はRDAと組み合わせたAdaGradをperlで実装しました。 RDAを用いた理由は上記論文でFOBOSよりも高性能だった
Gln 2014/07/27
機械学習

Perl

algorithm
リンク
ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類（Text Classification, Text Categorization）の技法たちを試していきたいと思います。テキスト分類は文書分類（Document Classification）という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。テキスト分類とはテキスト分類とは、与えられた文書（Webページとか）をあらかじめ与えられたいくつかのカテゴリ（クラス）に自動分類するタス
Gln 2014/07/20
bayes

algorithm

python

機械学習

自然言語処理
リンク
Deep Learning技術の今
第2回全脳アーキテクチャ勉強会での講演スライドです。Deep Learning の基礎から最近提案されている面白トピックを詰め込んだサーベイになっています。
Gln 2014/01/31
deep learning

learning

algorithm

machine learning

機械学習
リンク
ウェーブレット木の世界 - Preferred Networks Research & Development
岡野原です。ウェーブレット木の解説を統数研チャンネルにて行いました。統数研チャンネル（プレミアム会員ならしばらくタイムシフト視聴可能）。ウェーブレット木は万能のデータ構造であり、系列データ、全文検索、グラフ、二次元情報、フィンガープリントなど様々なデータに対して多くの操作をサポートします。本解説では大規模データの背景、ウェーブレット木の作り方、使い方、様々なデータへの適用、最前線（ウェーブレット行列）などを紹介しています。本解説は拙著「高速文字列解析の世界」とあわせてみていただけたらと思います。
Gln 2013/07/17
programming

algorithm

presentation

機械学習

research
リンク
Exact Soft Confidence-Weighted Learning (ICML2012) 読んだ - kisa12012の日記
概要オンラインでの分類学習の世界では，CWが非常に強力なアルゴリズムとして注目されています．特に，その圧倒的な分類精度及び収束速度は圧巻の一言であり，自然言語処理を中心に様々な分野で応用例や派生アルゴリズムが提案されています*1．一方で，ノイズデータのが混入していた場合に精度がガタ落ちする性質がCWの重大な欠点として多くの人から指摘されていました．ノイズが予め取り除かれている実験設定ならば良いのですが，ノイズが含まれている可能性の高い実データにはCWは中々不便．この問題を解決するため，ノイズ耐性の強いCW系アルゴリズムの決定版（？）として，SCW (Soft Confidence-Weighted)アルゴリズムがICML2012という会議で提案されました．本エントリでは，SCWの紹介を行います． Exact Soft Confidence-Weighted Learning, Wang
Gln 2013/07/03
algorithm

machine learning

SCW

CW

機械学習
リンク
一般向けのDeep Learning
PFI 全体セミナーで発表した、専門家向けではなく一般向けのDeep Learning（深層学習）の解説です。どのような場面で活躍しているのか、今までの学習手法と何が違うのかを解説しています。Read less
Gln 2013/06/03
deep learning

learning

機械学習

algorithm
リンク
CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい｡ uchiumi log: 間違ってるかもしれないCRFの説明また、実装方法については高村本(言語処理のための機械学習入門)がとても詳しい。さて、具体的な解説をしないなら何をするの？ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも
Gln 2011/12/07
CRF

algorithm

機械学習

NLP
リンク
complement naive Bayes - 機械学習の「朱鷺の杜Wiki」
多項モデル† 単純ベイズで文書分類をする場合によく用いられるのが多項モデル．単純ベイズでは，文書 \(\mathbf{x}_i\) が与えられたとき，クラス \(c\) になる確率は次式 \[\Pr[c|\mathbf{x}]\propto\Pr[\mathbf{x}|c]\Pr[c]\] \(w\) 種類の語があるとき，文書ベクトル \(\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{iw})\) の要素は，語 \(j\) が文書 \(i\) 内で生じる回数．多項モデルでは，この要素の頻度が多項分布に従うとする．クラス \(c\) の任意の文書のある語を選んだとき，その語が語 \(j\) である確率を \(\theta_{cj}\) で表す．すると，文書 \(\mathbf{x}_i\) は次式で決まるクラスに分類される \[\arg\max_c=\ln\
Gln 2011/06/19
algorithm

機械学習
リンク
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
Gln 2011/06/19
「バラツキを抑えることで性能を上げるものなので、カテゴリを推定する、というような多値分類問題には有効であるが、スパムかそうでないかを分類するような二値分類問題にはまったく意味がない。また、多値分類問題

programming

Algorithm

自然言語処理

機械学習
リンク
DO++: 機械学習による自然言語処理チュートリアル
自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma
Gln 2010/07/06
algorithm

機械学習

machine learning
リンク
機械学習はじめよう記事一覧 | gihyo.jp
運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
Gln 2010/07/06
機械学習

programming

algorithm

machine learning
リンク
トーナメントと多値分類 - DO++
今やってる研究で、トーナメント問題を調べる機会がありました。トーナメントは私も知らなかったのですが、勝者や順位を決める方式のことを指し、いわゆる二人ずつ戦って生き残っていく方式はノックアウトトーナメントといわれるそうです(wikipedia)。＃10000人戦う時にノックアウトトーナメントでは何回試合が行われるかというのはよくある質問ですね。で、このトーナメント方式というのは調べてみると非常に様々なものがあります例えばスイス式トーナメントは、最初はランダムな組み合わせで対戦、次は勝者同士と敗者同士、その次は全勝・１勝１敗・２戦全敗のそれぞれが・・というふうに同じ成績の人同士で戦う方式です。レーティングを計算して、レーティングが近いもの同士を戦わせるような拡張もあります。近いのは将棋でやってるようなものですね。利点は全ての人が同じ試合数で戦い、また厳密な順位が決めやすいことがありま
Gln 2010/03/12
algorithm

機械学習
リンク
自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非
Gln 2010/03/12
自然言語処理

研究

algorithm

machine learning

機械学習
リンク
1