ichanのブックマーク - はてなブックマーク

「確率密度比」を用いた機械学習の新たなアプローチ - yasuhisa's blog

東工大の杉山先生の講演がすごく面白かったのでメモ。やりたいこと、特徴p(x)とp'(x)という分布を推定しようという問題があったとする。このとき、二つの分布のパラメータを推定しないといけないので普通は大変。そこで、w(x) = p'(x) / p(x)を推定するという風に少し変形してやる。p(x)とp'(x)が分かればw(x)は求めることができるが、w(x)があってもp(x)とp'(x)は分からない。ということでw(x)のほうが簡単な問題になっている。こういう風に「何か問題を解くときに、その過程で元の問題より難しい問題を解かないようにしないと!」というような考え方をVapnikの原理といったりするそうです。この確率密度比の枠組みを利用すると非定常環境適応、ドメイン適応、マルチタスク学習、外れ値検出、時系列の変化点検知、特徴選択、次元削減、独立成分分析、条件付き確率推定などなどの問題を

ichan 2009/10/20

Machine Learning

リンク

PRMLのfigureをゆーっくり落としてくる - yasuhisa's blog

ネットに繋がらないところでゼミの準備とかをしていて、「あ、PRMLのこの図を今の資料に入れたい!でも、ネットつながらねー」ということが時々あるので、じわじわと落としてくるスクリプトを書いた。寝る前にでも走らせておいてください。くれぐれもゆーっくり。 require 'rubygems' require 'mechanize' require 'hpricot' url = "http://research.microsoft.com/en-us/um/people/cmbishop/PRML/webfigs.htm" agent = WWW::Mechanize.new source = Hpricot(agent.get_file(url)) (source/"tr/td/a").each{ |it em| if it em["href"] =~ /^\.\/(prmlfigs-png\/F

ichan 2009/10/19

じゃないだと!?

R

リンク

言語モデルのよさをはかる指標としてのパープレキシティ - yasuhisa's blog

今日の自然言語処理特論の講義がとても面白かったのでメモ。今日の自然言語処理特論では、最初に言語モデルとしてn-gramのモデルの紹介があって、それの最尤推定の話。次に言語モデルのよさをはかる尺度としてエントロピー*1を元にしたパープレキシティが紹介された。パープレキシティの導出のところはこんな感じ。まず情報量やエントロピーの導出のところの話があって、(頻度論的に)真のモデルがあると仮定したときにそのモデルと自分のモデルの仮想的な距離を相対エントロピー(=KLダイバージェンス)ではかろうとする。しかし、真のモデルの分布なんぞは分からないので困るのだが、Shannon-McMillan-Breimanの定理という素晴らしい定理(言語と計算 (4) 確率的言語モデルに説明が載っているらしい)があるらしく、これを利用すると真のモデルとの相互エントロピーを計算できる!!これはすごい。まあ、これに

ichan 2009/09/29

Shannon-McMillan-Breimanの定理

リンク

Loss and Risk Function - yasuhisa's blog

損失関数の定義について。 Consider estimating . Let t denote an estimate of . The loss function, denoted by , is defined to be a real-valued function satisfying for all possible estimates t and all in for eqals the loss incurred if one estimates to be t when isn the true parameter value. これを見たせばなんでもよいよね、というのがIntroduction to the Theory of StatisticsのP297のexample 16とかに書いてある。で、どんなsampleに対してもloss functionを最小にする推定

ichan 2009/07/24

DecisionTheory

リンク

Bayes Estimation Method - yasuhisa's blog

Definition Prior and Posterior Distributions 確率の基本法則加法定理乗法定理を用いて、導出される以下のベイズの定理を使ってと計算できるが、これを事後分布(posterior distribution)という。事後分布のmodeでを推定することもできる(mleにつながってくる)が、事後分布は単にの関数ではなく、分布関数である。なので、を推定するのに事後分布のmedianやmeanを使うこともできるわけである。meanを使うことでを推定して出てくる推定値のことをposterior Bayes estimatorと言う。で、ここでは(Introduction to the Theory of StatisticsのP341)もっと一般にの関数の推定値を考えて定義してある。 Let be a random sample from a den

ichan 2009/07/24

DecisionTheory

リンク

CでRの拡張したら速すぎて(40〜50倍)吹いたwww - yasuhisa's blog

昨日Gibbs Sampler Algorithmをやってみたわけだが、Rの中でfor文を書いていて必要となるサンプル数が多くなると非常につらくなってくることは目に見えている。しかも、MCMCでは初期値依存となる期間のサンプルを捨てないといけない。そういうわけでじゃんじゃんサンプルを作っても大丈夫なような速度が必要。 Rで速度を上げようと思ったらapplyファミリーを使うとかベクトル単位での処理をするetcが常套手段*1。が、今回は本質的にfor文が必要なケースである。で、困るわけだがRにはC、C++、fortranを使って拡張する機能がある。詳しくはこの辺に載っている。そういうわけでCのポインタもアドレスも理解していないid:syou6162がRが好きすぎたためにCを書いてみたという感じの内容。 #include <R.h> #include <Rinternals.h> SEXP r

ichan 2009/01/19

「はじめてのC♪　RとC♪ I will give you all my love 速度が出ちゃう Rのくせに♪ be in love with you」

R

リンク

Tsukuba.Rの概要について - yasuhisa's blog

前に書いたTsukuba.Rについてもうちょい詳細に書きたいと思います。どんなことやるの?みんながRについて知りたい、話したいというようなことを集まって発表なり、勉強会なり、相談会なりやれる場にしたいと思っています。現在、僕が思いついているようなこととして Rの歴史 Rを使う意義、メリット Rの基礎事項インストールプリミティブなデータ型についてデータハンドリング関数の書き方グラフィックス関係特集 Rの開発環境 Rのマニアックな使い方第一回くらいは自重しようと思います> でも、考えられるものとして applyファミリー大特集*1 Rの高速化やるおで学ぶ*2、俺俺ライブラリの作り方などがとりあえずあります。筑波で僕以外にRのことを発表してくれそうな人が、今のところあんまりいない気がするので Rで分析まで持っていくためのRuby or Perlで行なうテキストマンジング勉強会

ichan 2008/06/24

ktkr! 誰かKobe.Rやらないかなー? Rはプログラミングの側面と統計の側面の両方があるのでメンバーの意識に温度差が出そうだなー。

R

リンク

R&iPod touchの単語帳を強化したよ!! - yasuhisa's blog

この辺で初めて自分でTerminalで動く単語帳を作って、この辺でRで画像生成→iPod touchで単語帳として活用、とかを過去にやったりしてました。で、今日はid:Hash先生お勧めの単語帳を試してみたり。うむうむ、なかなかよいな。英語学習フレームワークと、暗記のキラーアプリ"Genius" - ミームの死骸を待ちながらでも、以下の点で不満。英語→日本語、と日本語→英語の選択ができない日本語の入力はめんどうなので、選択式とかにしたい「不満があるなら自分で作れ」というのが世の常なので、作りました。id:syou6162と言ったらもちろんRですね!!*1 http://itoshi.tv/d/?date=20080609#p01に刺激されて、何か作らねば!!とか思ってなんていないんだからね!! こんなの!! 和→英こっちは普通に入力していきます。英→和こっちは上にも書いた

ichan 2008/06/16

Nice tsundere.

リンク

統計解析するためのRで名刺作ったよ!! - yasuhisa's blog

完全に86s用のネタです、本当にありがとうございました。 meisi <- function(){ org <- "Hatena::Group::generation1986" post <- "開発合宿幹事" name <- "吉田康久(id:syou6162)" tel <- "TEL:0123456789" em ail <- "Mail:syou6162@gmail.com" web <- "Web:http://d.hatena.ne.jp/syou6162" plot(1, 1, xlim=c(0,10), ylim=c(10,0), type="n", axes=F, xlab="", ylab="") my.logo <- read.pnm("/home/yasuhisa/syou6162.ppm") r <- read.pnm("/home/yasuhisa/r.ppm"

ichan 2008/02/25

R
Hacks

リンク

研究とかをオープンにすること - yasuhisa's blog

文章にするのがめんどい。こういうときはリスト記法で逃げるに限る。「卒論とか研究の内容とかブログで公開するのはやばいのかな？」とかtwitterで聞いてみたとりあえず何も考えずに公開するのはやばいらしい少なくともどっかで発表するなり、外部に公開してからにしたほうがいいよとか答えてもらった身内学会とかは特に注意したほうがよさげ、とのこと自分としては脳内をブログなり、なんなりに書いてどっかの誰かの目に触れさせることで面白いコラボみたいなのができる感覚が好きなんだけどな、とか思った他にも思ってる人はいるようだそういえば研究をオープンソース化、とか言ってる人もいたなというのを思いだすブログはやばくても、そういうことを相談とか、話せるような人が研究室とか学内以外にもいるといいよね 86sでそういう人と巡り会えるといいよね SkypeとかUstがあるから、そんなに距離は関係ないよね問題

ichan 2008/01/25

引用されたので「どのように「バイオはオープンな感じ」なのかをITな人へ向けて具体的に紹介」を書いてみたよ．http://itoshi.tv/d/?date=20080123#p02

リンク

R勉強会第六回

Rで時系列データってどう扱うの? 時系列オブジェクトを生成時系列オブジェクトの合併 lhデータデータを覗いてみる UKgasデータ出力が長いので要約した統計量を知りたい開始時刻、終了時刻などなどを知りたい時系列データの一部を取り出したい時系列データをプロットガス消費量のプロット複数種類の時系列データを一度に表示するデータを定常にするラグ処理実際にやってみるデータの定常化 diff関数自己相関係数 acfを使って、データが定常になるまで差分を取る答えもう一個練習答えちなみにシミュレーションでデータを生成シミュレーションでデータを生成してみよう sarimaのシミュレーションモデルの同定偏自己相関係数の直感的理解自己相関係数、偏自己相関係数から見るAR、MA、ARMAの特徴 ARモデル使うデータモデルを推定する arimaモデル ARIMAモデル