cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有しています。 http://xpaperchallenge.org/cv/ 本資料はxpaper.challengeの2020年末ワークショップとしてプレゼンした、研究効率化Tipsです。10研究室、200ページ超にわたるノウハウ詰め合わせです。

cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有しています。 http://xpaperchallenge.org/cv/ 本資料はxpaper.challengeの2020年末ワークショップとしてプレゼンした、研究効率化Tipsです。10研究室、200ページ超にわたるノウハウ詰め合わせです。
はじめてきた方はサイト案内やサイトマップをご覧ください。 管理人Twitter始めました。一部のコードはGitHubで管理するようにしました。 プライバシーポリシーはこちらです。 ★2022年度の統計学の講義資料はこちらから閲覧できます。 ●書籍情報:Pythonではじめる時系列分析入門 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:Pythonで学ぶあたらしい統計学の教科書 [第2版] 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:意思決定分析と予測の活用 基礎理論からPython実装まで 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:R言語ではじめるプログラミングとデータ分析 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:RとS
ちょっと前の記事(単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース)に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変(汗)。知るは一時の恥というのをつくづく思い知りましたとさ。本当に裏先生ありがとうございました。 ということで、その復習内容の確認と同時に、あの時の裏先生のツッコミ内容をかみくだいて紹介するのも兼ねて、ここはひとつざっくり書いてみようかと思います。 項目ごとの単純集計は「単変量」解析(もっと言えば単相関)に過ぎず、多変量データ全体のことは分からない 前回用いたサンプルデータは、基本的にはa1-a7が0or1のみの二値で構成される事実上のカテゴリカルデータ*1で、cvも"Yes"or"No"のみの二値で構成されるカテゴリカルデータです。 で、二値のカテゴリカルデータだけで構成されてい
はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論
情報理論の基礎―情報と学習の直観的理解のために (SGC Books) 作者: 村田昇出版社/メーカー: サイエンス社発売日: 2008/08/01メディア: 単行本購入: 4人 クリック: 11回この商品を含むブログ (7件) を見る 目次 1 はじめに 2 情報理論の基礎事項 3 情報幾何の考え方 4 符号化と種々の情報量 5 モデル選択 6 混合モデルとアルゴリズムの幾何学的理解 1 はじめに 情報は生起の可能性に関する知識 学習は情報を読みそこに構造を見出すこと 確率変数が確率空間で結ばれている 確率モデルには2つの流儀があって、パラメトリックとノン・パラメトリック。前者が補助変数を用いる流儀、後者がカーネルやk-nearest neighborsなどを含む、データそのまま使う流儀 代表的な確率モデル 混合正規分布モデル 隠れマルコフモデル グラフィカルモデル ニューラルネットワー
微分方程式で数学モデルを作ろう 作者: デヴィッド・バージェスモラグ・ボリー,垣田高夫,大町比佐栄出版社/メーカー: 日本評論社発売日: 1990/04/09メディア: 単行本購入: 15人 クリック: 101回この商品を含むブログ (5件) を見る微分方程式を用いた数学モデルについてやる 第一章 序論 1.1 数学モデルの作り方 1.2 人口問題 1.3 モデル化のための枠組 1.4 微分方程式:基礎概念とアイデア 第二章 成長と減衰 2.1 はじめに 2.2 薬の吸収 2.3 放射性炭素 2.4 水の加熱と冷却 2.5 アルコールの吸収と事故危険率 2.6 人工腎臓器の数学モデル 第三章 変数分離系微分方程式 3.1 はじめに 3.2 刺激に対する反応 3.3 ロケットの飛行 3.4 水流についてのトリチェリの法則 3.5 抑制された成長モデル 3.6 技術革新の普及 第四章 線形一階
シンデレラガールズのデータがあったのでやってしまった。 このデータには身長体重があったので、身体的特徴についての統計量をとると age height weight BMI B W H Min. : 9.00 Min. :127.0 Min. :28.00 Min. :15.42 Min. : 60.0 Min. :47.0 Min. :65.00 1st Qu.:15.00 1st Qu.:152.2 1st Qu.:41.00 1st Qu.:16.95 1st Qu.: 78.0 1st Qu.:55.0 1st Qu.:80.00 Median :17.00 Median :157.5 Median :44.00 Median :17.53 Median : 82.0 Median :56.0 Median :82.00 Mean :17.67 Mean :156.5 Mean :4
Wikiよりシンデレラガールズのデータを入手した。 解析用に、 type:1がキュート、2がクール、3がパッション rare:1がN、2がR、3がS blood:1がA、2がB、3がAB、4がO hand:1が右利き、2が左利き、3が両利き 双葉杏:彼女一人だけ公式でスリーサイズ設定が非公開になっている。これを推定問題として解く とした。アンケートェ… コピペでタブ区切りで保存して使える。 type rare name age height weight B W H Boold hand 1 2 天海春香 17 158 46 83 56 82 4 1 1 2 高槻やよい 14 145 37 74 54 78 4 1 1 2 菊地真 17 159 44 75 57 78 4 1 1 2 我那覇響 16 152 41 83 56 80 1 1 1 1 島村卯月 17 159 45 83 59
シンデレラガールズたちにはスリーサイズのデータがあるのだが、双葉杏だけスリーサイズのデータが欠けている。 これを、他のシンデレラガールズたちのデータを用いて推定しよう、という試み。 今回はLASSOを使用した(というかこれしかいまのところできない)。 主成分分析もこれを流用したらできる。 data0 <- read.csv("imasPCA.csv", header=TRUE) data1 <- data0[,-which(colnames(data0)=="name")] #PCA用に数値だけにする plot(data1, cex=1) 年齢、身長、体重、バスト、ウエスト、ヒップはそれぞれ相関が強そう。 LASSOを使って予測しよう。 今回は、バスト、ウエスト、ヒップをそれぞれ独立に推定した。というのも、予測したいデータが3つ欠損していて、これらを同時に推定するのは今回よくわからなかった
双葉杏のスリーサイズ推定問題を流用して、初音ミクのスリーサイズを推定するというパンドラの箱的な取り組み。 公式には年齢、身長、体重しかないので、アイマスデータで足りないものはすべて組み合わせて発生させることでゴリ押しした。 data0 <- read.csv("imasPCA.csv", header=TRUE) data1 <- data0[,-which(colnames(data0)=="name")] #PCA用に数値だけにする library(glmnet) data2 <- data1[-32, ] #杏を抜いた anzu <- data1[32, ] data3 <- array(0, c(nrow(data2), ncol(data2)-2, 3)) #BWHでデータ data3[, , 1] <- as.matrix(data2[, -c(7, 8)]) #B data3
変化点検出をしたいしたいといって、ついにやることに。 国立感染症研究所からインフルエンザ定点観測データを入手して、流行予測をしよう。 変化点検出パッケージChangeAnomalyDetectionを使ってみる。 library(ChangeAnomalyDetection) #データは下に flu <- read.delim("flu_japan_2008_2013.txt", header=FALSE) week <- rep(seq(ncol(flu)), nrow(flu)) #週 flu_seq <- c(t(flu[rev(seq(nrow(flu))), ])) #ベクトルにする ts.plot(flu_seq) #時系列プロット 基本的に時系列データは欠損値を含んではいけないっぽい。 flu_cad <- c(na.omit(flu_seq)) week_na <- att
文章の解析で形態素解析というものがあるらしい。 ググればソフトウェアがいくつか出てくるが、その中でMeCabというものが使いやすそうだった。 JUMANはUbuntuターミナル上でのエンコーディングの問題で文字化けが解決しなかったのでMeCab推しでいこう。 インストールについてはググればいろいろ出てくるので、やったあととして使ってみる。 使い方はターミナル上で mecab として起動し、ターミナルに貼り付けるだけ。 初音ミクの説明文を使ってみる。 初音 ミク(はつね ミク、HATSUNE MIKU)は、クリプトン・フューチャー・メディアから発売されている音声合成・デスクトップミュージック(DTM)ソフトウェアの製品名、およびキャラクターとしての名称である。 初音 名詞,一般,*,*,*,*,初音,ハツネ,ハツネ ミク 名詞,固有名詞,人名,名,*,*,ミク,ミク,ミク ( 記号,括弧開,
Heuristicのお話。 ノーフリーランチ定理というのは初めて聞いた。 巡回セールスマン問題(TSP)やハミルトン閉路問題は純粋な解が求まるのかというとそうでもなかったり… 線形計画法を用いた当直割当問題も苦労した。 simulated annealing GenSA tabu search tabuSearch bnlearn evolutionary programming GenSA genetic algorithm GA genetic programming rgp simulated evolution ant colony irace timeordered particle swarm optimization pso neural network nnet hopfield network
数学いらずの医科統計学PART5 CHAPTER22の多重検定の話。 多重検定についてはぐぐると色々出てくる。 Rではp.adjustという関数でp値を各手法で補正してくれるようだ。とりあえず全部やってみる。 set.seed(123) x <- rnorm(50, mean = c(rep(0, 25), rep(3, 25))) p <- 2*pnorm(sort(-abs(x))) m <- c("holm", "hochberg", "hommel", "bonferroni", "BH", "BY", "fdr", "none") res <- NULL for(i in seq(m)){ res <- cbind(res, p.adjust(p, method=m[i])) } #順に並べた50個のp値がそれぞれどう変わるか matplot(res, type="o", yla
k-means法はもともと、「似ているものをまとめる」方法なので、「仲間はずれを探す」方法としてはよくないことがある。 今回はグダグダ。 k0 <- 2:10 kcluster <- matrix(0, nr=length(k0), nc=nrow(data0)) for(k1 in seq(k0)){ kcluster[k1, ] <- kmeans(data0, center=k0[k1])$cluster } for(k1 in seq(k0)){ cols <- rainbow(k0[k1]) n0 <- paste("kmeans_", k1, ".png", sep="") plot3d(data0, type="n") text3d(data0, texts=seq(nrow(data0)), col=cols[kcluster[k1, ]]) title3d(paste("
ロトカ=ヴォルテラのような時系列変化をしているものの相関を調べたいんだけど、という相談を受けた。 それで、既にGeneNetというパッケージに目をつけているらしいのでこれをやってみる。 他、ggm, GGMselectというのもあるらしいけど時間があれば…たぶんない。 データセットecoliは、ヒト酸化還元酵素を発現させたあとの102遺伝子の発現をマイクロアレイで調べたデータである。 Description This data set describes the temporal expression of 102 genes of E. Coli after induction of the expression of SOD (recombinant human superoxide dismutase). 時間は0から数えて9つタイムポイントを設定し、データはにしてある。基準はtim
図があまりにもきれいにしかも簡単に作れすぎて美しいペアプロット図を簡単に作るという記事をそのままパクる。 GGallyというパッケージでかんたんにかつかっこよくdata.frameのプロットができる。 library(GGally) data(tips, package="reshape") ggpairs(tips) ggpairs(tips, upper = "blank") # 上三角行列部分をプロットしない。 # プロットの仕方は密度、分布、点、平滑化などあるようだ。 ggpairs( tips, upper = list(continuous = "density", combo = "box"), lower = list(continuous = "points", combo = "dot") ) # data.frame 内で factor 化されていたら color で
数学いらずの医科統計学PART2 CHAPTER6で、ポアソン分布に従う事象の話がある。 そこで、それぞれの事象は1回だけ数えられないといけないのだが、飛行機のニアミスがどの程度生じたか調べた研究では、お互いの飛行機の操縦士と副操縦士合わせて4人が各々報告してしまい、1回のニアミスが4回と報告されていたらしい。 NASA blows millions on flawed airline safety survey. 2007 The problem is that NASA appears to have counted some incidents more than once. Pilots were given anonymity, so NASA can't tell when several reports of an incident refer to the same eve
確率分布と関係性。 基本的には、いくつかのパラメータを用いて関数が記述され、あるパラメータを固定した時にXX分布がYY分布に等しい、みたいな正確な関係(exact relation)と、有るパラメータ(たいていn)を無限大に飛ばしたらZZ分布に等しくなる、みたいな近似関係(approximate relation)がある。こちらのサイトに関係性が載っているが、ググっていたらいろいろ追加したらいいんじゃないかというような分布があったのでやり直してみる。 Rではひと通り揃っている。 正規分布-対数正規分布-二項分布-ポアソン分布-ガンマ分布 の関係がわかればおそらく全体の6割くらいわかる。 コイントスの裏表みたいな離散的な事象の解釈に必要そうなのが 二項分布-ベルヌーイ分布-超幾何分布-超幾何分布-ディリクレ分布 ポアソン分布-負の二項分布-幾何分布 待機時間など連続量の解釈に必要そうなのが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く