機械学習に関するsonoshouのブックマーク (24)

  • ディープラーニングによるホットドッグ検出器のレシピ - クックパッド開発者ブログ

    研究開発部の画像解析担当のレシェックです。techlife を書くのは初めてです。よろしくお願いいたします。 最先端の機械学習を使うためには、常に自分のスキルアップが必要です。そのために、毎日論文を読んだり、新しいオープンソースのコードを試してみたり、クックパッドのデータで実験しています。これはちょっと料理の練習と似ています。新しいモデルを学習させるのは料理をオーブンに入れるのと同じ気持ちです。オーブンの温度は学習率と同じで、低すぎだとよく焼けず、高すぎだと焦げてしまいます。しかし、ちゃんと他のリサーチャーの論文やブログの中のレシピを見ながら自分のデータでモデルを学習させると、失敗せずに済むかもしれません。 このエントリでは、そういった機械学習レシピの一例を紹介します。 このブログで使っているテスト画像はPixabayから取得した、Creative Commonsのライセンスの写真です。

    ディープラーニングによるホットドッグ検出器のレシピ - クックパッド開発者ブログ
  • 不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog

    これは,R Advent Calendar 2011の担当分の記事です. 機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが,現実の問題に機械学習を適用する際は,パラメータのチューニング方法など様々な観点から検討を行う必要があります.今回は,クラス分類における不均衡データ(imbalanced data)の扱いについて考えてみます. 不均衡データとは クラス分類を実行する際の悩みどころの一つとして,クラス分類の興味の対象となるクラスのサンプル数が他のクラスと比べて少ないケースがよくあることが挙げられます.このようなデータは不均衡データと呼ばれます. 例えば,スパムメールかどうかの判別において,スパムであるサンプル数とスパムではないサンプル数.あるいは,ある重病に罹患する人を特定したい場合,その病気に罹患した人数と罹患していない人数.こうしたケースではクラス間でサンプ

    不均衡データのクラス分類(R Advent Calendar 2011) - sfchaos's blog
  • 初めての機械学習理論 - Y's note

    はじめての機械学習 作者: 小高知宏出版社/メーカー: オーム社発売日: 2011/04/22メディア: 単行(ソフトカバー)購入: 6人 クリック: 99回この商品を含むブログ (9件) を見る はじめての機械学習 はじめての機械学習というを読んで学んだことをまとめます。自分で理解した言葉としてまとめています。原文とは異なる可能性があります。またその他自分で勉強した内容についても紹介します。 機械学習とは パラメータ調整による学習 帰納的学習 教示的学習 進化的手法による規則学習 ニューラルネット 機械学習ライブラリ その他用語 機械学習とは 「生物」以外の「機械」が学習を行う事。 過去のデータやとある局面のデータを学習して新たな局面に当てはまる有効な知識構成を「汎化」と呼ぶ。 機械学習ゲーム研究での適用が始まりで、人口知能と人間の対戦だった。 評価関数の評価値が高くなるようなパラ

    初めての機械学習理論 - Y's note
  • オンライン線形分類器とSCW - Sideswipe

    はじめに こんにちは。Machine Learning Advent Calendar 2012 、 12/20 を担当させていただく @kazoo04 です。 普段は(株)ウサギィでエンジニアをやっています。 今日の話 今日は Exact Soft Confidence-Weight Learning (Wang et al, ICML2012) (以下SCW)のご紹介を致します。 SCWは線形オンライン形分類器のひとつで、 学習が高速 オンライン学習 ノイズに強い 精度が良い という素晴らしいアルゴリズムです。 SCWはCWを改良したアルゴリズムですが、記事ではPerceptronから始まり、PA、CWなどを経てSCWに至るまでの過程とSCWのアルゴリズムについてまとめたいと思います。 数式の表記 すみません、はてなブログを始めたばかりで、ベクトルを太字の立体にする方法がイマイチわか

  • sonoshouのまじめなブログ

    記事の目的 勉強の記録。 もし、検索してたどり着いた方がいらっしゃったら、家を見た方が良いです。 RailsGuide 1. railsアプリケーションの作成 rails new blog 2. コントローラの作成 welcomeという名前のコントローラの中にindexというアクションを作成する。 controller:welcome action:index rails generate controller welcome index createされるファイル app/views/welcome app/views/welcome/index.html.erb test/controllers/welcome_controller_test.rb app/helpers/welcome_hellper.rb test/helpers/welcome_helper_test.rb

    sonoshouのまじめなブログ
  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

  • PRML合宿まとめサイト

    ■上巻 第1章: 序論 序論ではまずパターン認識の最も簡単な例として多項式曲線フィッティングを取り上げ、パターン認識・機械学習の基的な枠組みを紹介する。そしてベイズの定理や統計量などの確率論の基礎を導入し、確率論の観点から再び曲線フィッティングを扱う。不確実性はパターン認識の分野における鍵となる概念であり、確率論はこれを定量的に取り扱うための一貫した手法を与えるため、この分野における基礎の中心を担っている点で重要である。 また、回帰・識別の実際の取り扱いに際して必要となる決定理論や、パターン認識・機械学習の理論において役立つ情報理論の導入についても行う。 発表資料はこちら(ppt)とこちら(ppt)。前半では多項式曲線フィッティングの例およびベイズ的確率を、後半では決定理論および情報理論を取り扱っている。 第2章: 確率分布 第2章では二項分布や多項分布、ガウス分布といった各種の確率分布

  • PRML の読む章・飛ばす章(私家版) - 木曜不足

    機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない……」という奈落に叩き込んでいるという。 サイボウズ・ラボの社内 PRML 読書会でもその現象が発生。見かねた同僚の光成さんが PRML で使われている数学の解説だけではなく、PRML の中で省略されている式変形の過程も含めて書き下したメモ(社内通称:アンチョコ)が暗黒通信団から「機械学習とパターン認識の学習」という同人誌として出版され、全国のジュンク堂で購入可能となるとちょっとしたムーブメントががが。 現在はアマゾンでも購入可能となっているが、もともとのアンチョコも PDF で無料公開(CC-BY ライセンス)されているので、紙のでないと勉強す

    PRML の読む章・飛ばす章(私家版) - 木曜不足
  • 線形SVM - 人工知能に関する断創録

    下巻に入って7章のサポートベクトルマシン(Support Vector Machine: SVM)を実装してみます。SVMに関しては、有名なSVMのライブラリ(libsvm)を使ったことがあるだけで、アルゴリズム詳細はPRMLで初めて学習しました。なので変なことを書いていたらコメント欄で指摘してもらえると助かります。 まずは、一番簡単な線形SVMを実装してみます。今までと同様に直線(超平面)でデータが完全に分離できる場合です。PRMLの7章には特に説明がありませんが、カーネル関数に下の線形カーネル(データのただの内積)を用いた場合に相当するようです。このカーネル関数を多項カーネルやガウシアンカーネルに変更すると線形分離不可能なデータも分類できるようになるとのこと。非線形SVMは次回ためしてみます。 まず、SVMの識別関数は、式(7.1)で表せます。 今までと違ってバイアスパラメータをまとめ

    線形SVM - 人工知能に関する断創録
    sonoshou
    sonoshou 2012/04/19
    cvxopt.solveの使い方
  • 数式をnumpyに落としこむコツ

    Tokyo.SciPy #2 にて発表した、数式(あるいは数式入りのアルゴリズム)から実装に落とす場合、何に気をつけるのか、どう考えればいいのか、というお話。 対象は、どうやって数式をプログラムすればいいかよくわからない人、ちょっとややこしい数式になると四苦八苦してしまい、コードに落とすのにすごく時間がかかってしまう人、など。 ここでは実行速度についてはひとまずおいといて、簡潔で間違いにくい、ちゃんと動くコードを書くことを目標にしています。

    数式をnumpyに落としこむコツ
    sonoshou
    sonoshou 2012/04/16
    数式からプログラムに落とすまで。
  • ニューラルネットのメモ04

     ★いまさら、人工知能についてメモってみる ☆教師のいらない学習 そもそも教師がいないじゃん 自然な学習を考えてみる。目の前にりんごがある。 それがべ物かどうかは誰も知らない環境では当然だが、誰も教えてはくれない。 それが、べ物かどうかを知るためには、べてみた結果を学習しなければならない。 人工知能でも、同じように、すべての事柄を人間が教えていたのでは手間がかかってしょうがない。 ある程度のことは、自分で覚えて欲しいものだ。 ってわけで、いままで教師が常に正解を教えているモデルをメモっていたが、ここでは教師がいなくてもどうにかなるモデルを勉強してみる。 こういうモデルを教師なしモデル、あるいは教師なし学習というらしい。 自己組織化マップ 教師がいなくてもどうにかなるモデルっていうのは、幾つかあるらしいが、せっかくニューラルネットワーク系統で勉強してるのだから、同じような系

    sonoshou
    sonoshou 2012/02/25
    自己組織マップの解説
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
    sonoshou
    sonoshou 2012/02/14
    データセットの例
  • パターン認識と機械学習(PRML)まとめ - 人工知能に関する断創録

    2010年は、パターン認識と機械学習(PRML)を読破して、機械学習の基礎理論とさまざまなアルゴリズムを身につけるという目標(2010/1/1)をたてています。もうすでに2010年も半分以上過ぎてしまいましたが、ここらでまとめたページを作っておこうと思います。ただ漫然と読んでると理解できてるかいまいち不安なので、Python(2006/12/10)というプログラミング言語で例を実装しながら読み進めています。Pythonの数値計算ライブラリScipy、Numpyとグラフ描画ライブラリのmatplotlibを主に使ってコーディングしています。実用的なコードでないかもしれませんが、ご参考まで。 PRMLのPython実装 PRML読書中(2010/3/26) 多項式曲線フィッティング(2010/3/27) 最尤推定、MAP推定、ベイズ推定(2010/4/4) 分類における最小二乗(2010/4/

    パターン認識と機械学習(PRML)まとめ - 人工知能に関する断創録
    sonoshou
    sonoshou 2012/01/28
    ビショップ本をコード化したホームページ
  • メモ - Shogo Computing Laboratory

    ソフトウェア いろいろなソフトウェアの使い方について。 プログラミング プログラミングについてのTOPIC 図形処理の基礎 CADみたいなものを作りたいなと、点や直線や円の関係をいろいろ整理してみます。 アルゴリズム いろいろなアルゴリズムについてまとめてみました。 その他 上の分類に当てはまらないメモたちです。

    sonoshou
    sonoshou 2012/01/12
    図形処理の基礎,アルゴリズムのページが素晴らしい
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
    sonoshou
    sonoshou 2012/01/08
    ウェブ上で主成分分析ができて、さらに結果をプロットしてくれる。
  • 多項式曲線フィッティング - 人工知能に関する断創録

    PRMLをよく理解する&復習のために自分でもコーディングしていきます。Rを使っている方がいて(Rでベイズ線形回帰の予測分布)Rでやろうかなぁと思ったのですが慣れているPythonを使うことにしました。Pythonにも数値計算用のSciPyとNumPy、グラフ描画のmatplotlibというRに匹敵するライブラリがそろっています。デフォルトでは入っていないので別途インストールしてください。 まずは、PRML1.1の多項式曲線フィッティングです。いわゆる最小二乗法ってやつですね。観測値xとtの訓練集合から多項式曲線のパラメータwを求めるという課題です。まず、訓練データ集合から作ります。PRMLでは、sin(2πx)の関数値を計算したあとに、ガウス分布に従う小さなランダムノイズを加えて対応するtを作っています。Pythonだと下のような感じかな。 実行すると下のようなグラフが表示されます。PRM

    多項式曲線フィッティング - 人工知能に関する断創録
    sonoshou
    sonoshou 2011/11/07
    最小二乗法とサンプルプログラム
  • パターン認識と機械学習を読むために(読んでいる|読んだ)本 - nagayoshi3のブログ

    パターン認識と機械学習(PRML,Pattern Recognition and Machine Learning)を読むために(読んでいる|読んだ)をまとめてみた.以下の説明は私の主観的な感想です. パターン認識と機械学習 上 - ベイズ理論による統計的予測posted with amazlet at 11.02.02C. M. ビショップ シュプリンガー・ジャパン株式会社 売り上げランキング: 166502 Amazon.co.jp で詳細を見る パターン認識と機械学習 下 - ベイズ理論による統計的予測posted with amazlet at 11.02.02C. M. ビショップ シュプリンガー・ジャパン株式会社 売り上げランキング: 179455 Amazon.co.jp で詳細を見る 数学(統計,線形代数) プログラミングのための確率統計posted with amazl

    パターン認識と機械学習を読むために(読んでいる|読んだ)本 - nagayoshi3のブログ
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

    今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

    ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
  • ベイズ推定と最尤推定の違い

    事後確率: ある事象Dが発生した場合、仮説Hiが正しい確率。条件付き確率で、P(Hi | D)と書きます。