タグ

ブックマーク / www.yasuhisay.info (11)

  • 「確率密度比」を用いた機械学習の新たなアプローチ - yasuhisa's blog

    東工大の杉山先生の講演がすごく面白かったのでメモ。 やりたいこと、特徴p(x)とp'(x)という分布を推定しようという問題があったとする。このとき、二つの分布のパラメータを推定しないといけないので普通は大変。そこで、w(x) = p'(x) / p(x)を推定するという風に少し変形してやる。p(x)とp'(x)が分かればw(x)は求めることができるが、w(x)があってもp(x)とp'(x)は分からない。ということでw(x)のほうが簡単な問題になっている。 こういう風に「何か問題を解くときに、その過程で元の問題より難しい問題を解かないようにしないと!」というような考え方をVapnikの原理といったりするそうです。 この確率密度比の枠組みを利用すると非定常環境適応、ドメイン適応、マルチタスク学習、外れ値検出、時系列の変化点検知、特徴選択、次元削減、独立成分分析、条件付き確率推定などなどの問題を

  • PRMLのfigureをゆーっくり落としてくる - yasuhisa's blog

    ネットに繋がらないところでゼミの準備とかをしていて、「あ、PRMLのこの図を今の資料に入れたい!でも、ネットつながらねー」ということが時々あるので、じわじわと落としてくるスクリプトを書いた。寝る前にでも走らせておいてください。くれぐれもゆーっくり。 require 'rubygems' require 'mechanize' require 'hpricot' url = "http://research.microsoft.com/en-us/um/people/cmbishop/PRML/webfigs.htm" agent = WWW::Mechanize.new source = Hpricot(agent.get_file(url)) (source/"tr/td/a").each{ |item| if item["href"] =~ /^\.\/(prmlfigs-png\/F

    PRMLのfigureをゆーっくり落としてくる - yasuhisa's blog
    ichan
    ichan 2009/10/19
    じゃないだと!?
  • 言語モデルのよさをはかる指標としてのパープレキシティ - yasuhisa's blog

    今日の自然言語処理特論の講義がとても面白かったのでメモ。 今日の自然言語処理特論では、最初に言語モデルとしてn-gramのモデルの紹介があって、それの最尤推定の話。次に言語モデルのよさをはかる尺度としてエントロピー*1を元にしたパープレキシティが紹介された。 パープレキシティの導出のところはこんな感じ。まず情報量やエントロピーの導出のところの話があって、(頻度論的に)真のモデルがあると仮定したときにそのモデルと自分のモデルの仮想的な距離を相対エントロピー(=KLダイバージェンス)ではかろうとする。しかし、真のモデルの分布なんぞは分からないので困るのだが、Shannon-McMillan-Breimanの定理という素晴らしい定理(言語と計算 (4) 確率的言語モデルに説明が載っているらしい)があるらしく、これを利用すると真のモデルとの相互エントロピーを計算できる!!これはすごい。まあ、これに

    言語モデルのよさをはかる指標としてのパープレキシティ - yasuhisa's blog
    ichan
    ichan 2009/09/29
    Shannon-McMillan-Breimanの定理
  • Loss and Risk Function - yasuhisa's blog

    損失関数の定義について。 Consider estimating . Let t denote an estimate of . The loss function, denoted by , is defined to be a real-valued function satisfying for all possible estimates t and all in for eqals the loss incurred if one estimates to be t when isn the true parameter value. これを見たせばなんでもよいよね、というのがIntroduction to the Theory of StatisticsのP297のexample 16とかに書いてある。 で、どんなsampleに対してもloss functionを最小にする推定

    Loss and Risk Function - yasuhisa's blog
  • Bayes Estimation Method - yasuhisa's blog

    Definition Prior and Posterior Distributions 確率の基法則 加法定理 乗法定理 を用いて、導出される以下のベイズの定理 を使って と計算できるが、これを事後分布(posterior distribution)という。 事後分布のmodeでを推定することもできる(mleにつながってくる)が、事後分布は単にの関数ではなく、分布関数である。なので、を推定するのに事後分布のmedianやmeanを使うこともできるわけである。meanを使うことでを推定して出てくる推定値のことをposterior Bayes estimatorと言う。 で、ここでは(Introduction to the Theory of StatisticsのP341)もっと一般にの関数の推定値を考えて定義してある。 Let be a random sample from a den

    Bayes Estimation Method - yasuhisa's blog
  • CでRの拡張したら速すぎて(40〜50倍)吹いたwww - yasuhisa's blog

    昨日Gibbs Sampler Algorithmをやってみたわけだが、Rの中でfor文を書いていて必要となるサンプル数が多くなると非常につらくなってくることは目に見えている。しかも、MCMCでは初期値依存となる期間のサンプルを捨てないといけない。そういうわけでじゃんじゃんサンプルを作っても大丈夫なような速度が必要。 Rで速度を上げようと思ったらapplyファミリーを使うとかベクトル単位での処理をするetcが常套手段*1。が、今回は質的にfor文が必要なケースである。 で、困るわけだがRにはC、C++、fortranを使って拡張する機能がある。詳しくはこの辺に載っている。そういうわけでCのポインタもアドレスも理解していないid:syou6162がRが好きすぎたためにCを書いてみたという感じの内容。 #include <R.h> #include <Rinternals.h> SEXP r

    CでRの拡張したら速すぎて(40〜50倍)吹いたwww - yasuhisa's blog
    ichan
    ichan 2009/01/19
    「はじめてのC♪ RとC♪ I will give you all my love 速度が出ちゃう Rのくせに♪ be in love with you」
  • Tsukuba.Rの概要について - yasuhisa's blog

    前に書いたTsukuba.Rについてもうちょい詳細に書きたいと思います。 どんなことやるの?みんながRについて知りたい、話したいというようなことを集まって発表なり、勉強会なり、相談会なりやれる場にしたいと思っています。現在、僕が思いついているようなこととして Rの歴史 Rを使う意義、メリット Rの基礎事項 インストール プリミティブなデータ型について データハンドリング 関数の書き方 グラフィックス関係特集 Rの開発環境 Rのマニアックな使い方 第一回くらいは自重しようと思います> でも、考えられるものとして applyファミリー大特集*1 Rの高速化 やるおで学ぶ*2、俺俺ライブラリの作り方 などがとりあえずあります。筑波で僕以外にRのことを発表してくれそうな人が、今のところあんまりいない気がするので Rで分析まで持っていくためのRuby or Perlで行なうテキストマンジング勉強会

    Tsukuba.Rの概要について - yasuhisa's blog
    ichan
    ichan 2008/06/24
    ktkr! 誰かKobe.Rやらないかなー? Rはプログラミングの側面と統計の側面の両方があるのでメンバーの意識に温度差が出そうだなー。
  • R&iPod touchの単語帳を強化したよ!! - yasuhisa's blog

    この辺で初めて自分でTerminalで動く単語帳を作って、この辺でRで画像生成→iPod touchで単語帳として活用、とかを過去にやったりしてました。 で、今日はid:Hash先生お勧めの単語帳を試してみたり。うむうむ、なかなかよいな。 英語学習フレームワークと、暗記のキラーアプリ"Genius" - ミームの死骸を待ちながら でも、以下の点で不満。 英語→日語、と日語→英語の選択ができない 日語の入力はめんどうなので、選択式とかにしたい 「不満があるなら自分で作れ」というのが世の常なので、作りました。id:syou6162と言ったらもちろんRですね!!*1 http://itoshi.tv/d/?date=20080609#p01に刺激されて、何か作らねば!!とか思ってなんていないんだからね!! こんなの!! 和→英 こっちは普通に入力していきます。 英→和 こっちは上にも書いた

    R&iPod touchの単語帳を強化したよ!! - yasuhisa's blog
    ichan
    ichan 2008/06/16
    Nice tsundere.
  • 統計解析するためのRで名刺作ったよ!! - yasuhisa's blog

    完全に86s用のネタです、当にありがとうございました。 meisi <- function(){ org <- "Hatena::Group::generation1986" post <- "開発合宿幹事" name <- "吉田 康久(id:syou6162)" tel <- "TEL:0123456789" email <- "Mail:syou6162@gmail.com" web <- "Web:http://d.hatena.ne.jp/syou6162" plot(1, 1, xlim=c(0,10), ylim=c(10,0), type="n", axes=F, xlab="", ylab="") my.logo <- read.pnm("/home/yasuhisa/syou6162.ppm") r <- read.pnm("/home/yasuhisa/r.ppm"

    統計解析するためのRで名刺作ったよ!! - yasuhisa's blog
    ichan
    ichan 2008/02/25
  • 研究とかをオープンにすること - yasuhisa's blog

    文章にするのがめんどい。こういうときはリスト記法で逃げるに限る。 「卒論とか研究の内容とかブログで公開するのはやばいのかな?」とかtwitterで聞いてみた とりあえず何も考えずに公開するのはやばいらしい 少なくともどっかで発表するなり、外部に公開してからにしたほうがいいよとか答えてもらった 身内学会とかは特に注意したほうがよさげ、とのこと 自分としては脳内をブログなり、なんなりに書いてどっかの誰かの目に触れさせることで面白いコラボみたいなのができる感覚が好きなんだけどな、とか思った 他にも思ってる人はいるようだ そういえば研究をオープンソース化、とか言ってる人もいたなというのを思いだす ブログはやばくても、そういうことを相談とか、話せるような人が研究室とか学内以外にもいるといいよね 86sでそういう人と巡り会えるといいよね SkypeとかUstがあるから、そんなに距離は関係ないよね 問題

    研究とかをオープンにすること - yasuhisa's blog
    ichan
    ichan 2008/01/25
    引用されたので「どのように「バイオはオープンな感じ」なのかをITな人へ向けて具体的に紹介」を書いてみたよ.http://itoshi.tv/d/?date=20080123#p02
  • R勉強会第六回

    Rで時系列データってどう扱うの? 時系列オブジェクトを生成 時系列オブジェクトの合併 lhデータ データを覗いてみる UKgasデータ 出力が長いので要約した統計量を知りたい 開始時刻、終了時刻などなどを知りたい 時系列データの一部を取り出したい 時系列データをプロット ガス消費量のプロット 複数種類の時系列データを一度に表示する データを定常にする ラグ処理 実際にやってみる データの定常化 diff関数 自己相関係数 acfを使って、データが定常になるまで差分を取る 答え もう一個練習 答え ちなみに シミュレーションでデータを生成 シミュレーションでデータを生成してみよう sarimaのシミュレーション モデルの同定 偏自己相関係数の直感的理解 自己相関係数、偏自己相関係数から見るAR、MA、ARMAの特徴 ARモデル 使うデータ モデルを推定する arimaモデル ARIMAモデル

    R勉強会第六回
  • 1