タグ

PRMLに関するsatojkovicのブックマーク (142)

  • プログラマが解くのに1時間かかる問題を機械学習に放り込む話 | ぱろすけのメモ帳

    プログラマが解くのに1時間かかる問題を機械学習に放り込む話 By ぱろすけ on 4月 11th, 2012 皆様、 Twitter やら facebook で数カ月前に爆発的に拡散された以下の問題をご存知でしょうか。 ご存知の方が多いでしょうね。単に、イコールの左側の4つの数字の丸の数の合計がイコールの右側に等しい、それだけですね。とても簡単な問題です。ちなみに僕は解けませんでした。 これについて、昨日このようなエントリが投稿され、話題になっています。 プログラマが解くのに1時間かかるという問題が普通にプログラマな方法で5分で解ける話 http://d.hatena.ne.jp/nowokay/20120410 こりゃあ炎上するでしょうねえ。だって、プログラマも何も関係なく、ふつうに問題を解いているのですから。 先ほどのエントリでは、イコールの左側の数値は変数であり、それを足しあわ

  • Perceptron - [物理のかぎしっぽ]

    の学習モデル † 最近傍決定則やk-最近傍決定則 によりパターンを識別する事ができるようになりました. これらの方法は大変シンプルな考え方でありながら,サンプルが充実していれば かなりの精度で識別が可能だと考えられます.しかし問題点として, サンプル全てを保持しておかなければならない事,次元数が増え,サンプル数が増えると 計算量が膨大になる事が挙げられます. ここで最近傍決定則のように,パターンに最も距離の近いクラスタを選ぶという作業は 見方を変えると,異なるクラスタのサンプル間において, 垂直二等分線を考え,領域を分けるという事になります. ということは,この境界線を知ることができれば, サンプルのデータは不要と考えることができ,Perceptronはこの境界線を 学習によって得ることができます.ただし,Perceptronは上の図のような垂直二等分線を得る訳ではなく, 学習であたえ

  • TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん

    心理学会第83回大会のチュートリアル「機械学習と心理学との接点」での講演資料です。 word2vecの背後で使われているSkip-gramやCBoWのようなユークリッド空間での埋め込み手法を導入し、次いで、双曲空間のようなもっと構造を持った空間へ埋め込むことのメリットについて説明します。Poincaré Embeddingやh-MDSのような双曲空間への埋め込み手法も紹介しています。 最後にさまざまな空間の積空間を考え、その空間自体を最適化することでデータの詳細な構造を捉えるという、という考え方を紹介します。

    TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
  • Perceptron を手で計算して理解してみる (nakatani @ cybozu labs)

    Perceptron の実装とか見ると、ものすごく簡単なので、当にこれで学習できちゃうの? と不安になってしまいました(苦笑)。 こういうときは、実際にパーセプトロンが計算しているとおりに、紙と鉛筆で計算してみて、期待する結果が出てくることを確認してみたくなります。 参照する教科書は「パターン認識と機械学習・上」(PRML) の「 4.1.7 パーセプトロンアルゴリズム」。 短い節です。必要最低限のことを一通り書いてある感じかな。 計算に用いるサンプルですが、手で計算できる規模でないといけないので、論理演算の AND を試してみることにします。 簡単に勉強 ちゃんとした説明は PRML などを見て欲しいですが、とても簡単にまとめます。 2値の線形識別モデルは、N 次元空間内を (N-1) 次元の超平面(決定面)で分割することで、入力ベクトル x から得られる特徴ベクトル φ(x) が2つ

  • Perceptron を勉強する前にオンライン機械学習ライブラリを試してみる (nakatani @ cybozu labs)

    今度は CLUTO を試してみた話を書こうと思っていたのですけど、あまりふくらみそうにないので、保留。 オンライン学習(逐次学習)に興味があるので、まずは Perceptron 周辺を勉強し始めてます。 が、その前に動くものをさわっておこうということで、岡野原さんのオンライン機械学習ライブラリをちょっぴり試してみました。 oll プロジェクトページ(日語) ビルド Linux なら ./configure & make でOK。 Windows の場合 oll.hpp の先頭のどこかに #include <algorithm> を追加すれば VC++ でもコンパイルできました。 サンプルデータ サンプルデータには、プロジェクトページにも実験としてあがっている news20.binary をまずは使ってみることにしましょう。 「シャッフルし、15000例の訓練データと4996例のテストデー

  • 【17-E-3】 オンライン機械学習で実現する大規模データ処理

    Hadoop Summit 2012 - Hadoop and Vertica: The Data Analytics Platform at Twitter

    【17-E-3】 オンライン機械学習で実現する大規模データ処理
  • PRML副読本「パターン認識と機械学習の学習」を出版します | TAKESAKO @ Yet another Cybozu Labs

    2010年~2011年に社内で開催した機械学習勉強会の『パターン認識と機械学習読書会で、光成さんが素晴らしいアンチョコを作ってくれました。PDFファイルは既にgithub 上で公開されていますが、このまま埋もれさせておくのはもったいないということで、暗黒通信団の同人誌として正式に出版されることが決まりました。 ※ 表紙のデザインは今後変更される可能性があります。 目次は以下の通りです。 第 1 章  「序論」のための確率用語 1.1      確率変数は変数なのか..............................  7 1.1.1   確率空間(Ω, F, P).............................  7 1.1.2   σ 加法族.....................................  8 1.1.3   確率変数X..........

    satojkovic
    satojkovic 2012/04/02
    大期待
  • 最小二乗法による係数の推定

    で表現されていると考えることができる. すなわち,最小二乗法は,「測定されたxとyの系列から,ある条件を満たす係数列aを求める問題」と考えることができる. 用語の定義 誤差 測定値と真の値(永遠に不明)の差,従って具体的な誤差値も永遠に不明となる.通常の測定では目盛の10分の1を目視で読むので,この最小の桁に誤差が含まれる,として扱う.従って,誤差値に基づいて何かを行うことは出来ない. 例:一目盛が1mmの定規で長さを測定する場合は,0.1mmまで測定して,測定値が4.5mmとする.このとき真の値は,4.45mm~4.54mmの間にあることになり,誤差の範囲は,±0.05mmとなる. 残差 推定値と測定値との差.この値は計算することが出来る.->最小二乗法で用いることができる. 線形最小二乗法の定義 最小二乗法では残差の二乗和が最小になるように各係数を求める方式である.具体的には,残差二乗

  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
  • サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍 - nokunoの日記

    サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍についてまとめました.オライリー社から出版されているものが多いですね.日語だと,以下のが有名です.Amazon.co.jp: 集合知プログラミング: Toby Segaran, 當山 仁健, 鴨澤 眞夫: Amazon.co.jp: 入門 自然言語処理: Steven Bird, Ewan Klein, Edward Loper, 萩原 正人, 中山 敬広, 水野 貴明: Amazon.co.jp: ビューティフルデータ: Toby Segaran, Jeff Hammerbacher, 堀内 孝彦, 真鍋 加奈子, 苅谷 潤, 小俣 仁美, 篠崎 誠: 実は他にもこの手のは洋書で色々と出版されています.Amazon.co.jp: Mining the Social Web: Matthew A. Rus

  • mixi Engineers' Seminar #3 に参加しました #mixi_engineers - nokunoの日記

    mixi Engineers’ Seminar #3 : ATND 機械学習の基礎と評判分析 by 高村大也 自己紹介 東工大のすずかけ台キャンパスにいます! 「すずかけ台には良い教授がたくさんいる」はポジティブと評判分析 著書:Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ): 高村 大也, 奥村 学: 概要 コンテンツを入手→前処理→分類器→出力 前処理:形態素解析→品詞フィルタ,ストップワード削除 「すずかけ台には良い教授がたくさんいる」→すずかけ台 良い 教授 たくさん 分類器 ポジティブかネガティブか ナイーブベイズ分類器 確率的生成モデル 140文字制限は無視 ツイートの長さを決める(単語数) ポジティブかネガティブか決める 単語を選ぶ作業を長さ分だけ繰り返す P(ツイート,ポジ) > P(ツイート,ネガ) ならポジティブ,逆ならネガティブ

  • UCI Machine Learning Repository

    Welcome to the UC Irvine Machine Learning Repository We currently maintain 664 datasets as a service to the machine learning community. Here, you can donate and find datasets used by millions of people all around the world!

  • Stephen Marsland

    This webpage contains the code and other supporting material for the textbook "Machine Learning: An Algorithmic Perspective" by Stephen Marsland, published by CRC Press, part of the Taylor and Francis group. The first edition was published in 2009, and a revised and updated second edition is due out towards the end of 2014. The book is aimed at computer science and engineering undergraduates studi

  • 第6回 Numpyの導入 | gihyo.jp

    今回は第3回の冒頭で紹介した、Numpyの導入方法と簡単な使い方について説明します。次回で様々な分布を扱うためにNumpyの準備をしておきましょう。 Numpyの導入 Numpyはオープンソースの拡張モジュールで行列や多次元配列と、それらを操作するための数学関数ライブラリを提供しています。Numpyの内部はC言語で実装されているため、普通にPythonで実装した時と比較するとはるかに高速に実行することが可能です。 ここではインストールの仕方とNumpyの簡単な実行例を確認しておきましょう。 インストール WindowsMacOSXのPCにNumpyをインストールする場合は、NumpyのサイトのDownloadのページの上の方にあるNumPyのProjectからインストール先のマシンのOSに対応したファイルをダウンロードして実行してください。 しかし、MacOSXにデフォルトでバインドされ

    第6回 Numpyの導入 | gihyo.jp
  • 2012-02-04

    以前のエントリでも述べましたが、bag of visual words(BoVW)は一般物体認識における標準的な画像特徴表現であり、非常によく用いられます。ですが、BoVWはこの3年ほどで急速に進歩しており、よく見られる「k-meansでクラスタリング → ヒストグラム作成 → 非線形SVM」という定石は既に時代遅れのものとなりつつあります。 今日は、BoVWに関連する最近のトレンドをいくつか見てみたいと思います。実は、これは一般物体認識の大規模化と深い関わりがあります。古典的なBoVWでは非線形カーネルの利用が必要でしたが、最近の手法は線形識別器を直接適用できるように考えて設計されています。ここがうまくいけばあとは、いかにして大規模な線形識別器を学習するか、という機械学習やデータマイニング等でよく議論される問題まで落ちてきます。これにより、一般物体認識もかなり大きな規模のデータで学習・認

    2012-02-04
  • 【書籍紹介】Machine Learning for Vision-Based Motion... | DERiVE コンピュータビジョン ブログ

    このサイトについて DERiVEはコンピュータビジョン、画像認識が専門のMasaki Hayashiがお送りしている、コンピュータビジョン(Computer Vision)を中心としたITエンジニア、研究向けのブログです。※「DERiVE メルマガ別館」は2015/9月で廃刊致しました、 今日サーベイをしているときに、私の大学のオンライン書籍棚から以下のようなビジョン向けの新刊を見つけたのでご紹介します。 Machine Learning for Vision-Based Motion Analysis: Theory and Techniques (Advances in Pattern Recognition) このの題目のとおり、機械学習(およびパターン認識)をもとにした「動画データのモーション解析手法集」です。 昨年2011年の11月に発売されたようで、以下のWorkShopの

  • 今年紹介してきた統計学・機械学習・R・データマイニングの本やサイトまとめ - データサイエンティスト上がりのDX参謀・起業家

    もう今年も終わりですね。今日はクリスマスというのに何をしてるのやら、、、とか思いつつ記事を書いてます。1年の大掃除の意味も込めて、今年いろんな人に紹介してきたやサイトをまとめておこうかなと思います。 まずは定番の2冊。「機械学習」「統計的学習」と名前は分かれていますが、同じ手法を視点を変えて説明しているような感じです。 PRLM(機械学習、一部PDFあり) Hastie(統計的学習、PDFあり) 機械学習をいきなり英語格的に学ぶのがキツい場合は、これらのやサイトが網羅的なのでオススメです。 多変量解析入門――線形から非線形へ 作者: 小西貞則出版社/メーカー: 岩波書店発売日: 2010/01/27メディア: 単行(ソフトカバー)購入: 14人 クリック: 347回この商品を含むブログ (9件) を見る 機械学習 はじめよう(記事へのリンク) 英語の初級は「おしゃスタ」勉強会

    今年紹介してきた統計学・機械学習・R・データマイニングの本やサイトまとめ - データサイエンティスト上がりのDX参謀・起業家
  • HMM, MEMM, CRF メモ

    2010-06-21にhandsOutにアップした資料の明らかな間違いを修正した資料です。Read less

    HMM, MEMM, CRF メモ
  • 第1回 IBISMLチュートリアル | 情報論的学習理論と機械学習 (IBISML) 研究会

  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家