タグ

ブックマーク / hoxo-m.hatenablog.com (7)

  • RDP Classifier の原理 - ほくそ笑む

    1. はじめに RDP Classifier は、RDP(Ribosomal Database Project) により開発された、16S rRNA 配列から菌種を判別するためのツールです。 RDP Classifier は、BLAST に比べて数百倍の速度で菌の判別(簡易同定)を行うことが可能です。また、この論文によると、RDP Classifier は misclassify はありますが、BLAST と同程度の正確性で菌の判別を行うことができます。 RDP Classifier は、菌の判定にナイーブベイズ分類器を使用します。今回は、RDP Classifier がどのように菌の判定を行っているかを説明してみることにします。 2. ナイーブベイズ分類器 菌の判定を行いたい 16S rRNA 配列を 、genus を とすると、ベイズの定理より、 が成り立ちます。 は、 が与えられた時

    RDP Classifier の原理 - ほくそ笑む
    chiko
    chiko 2013/04/24
  • 小標本問題と t検定 - ほくそ笑む

    統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標問題」というのを解決するために考案されました。 小標問題とは、正規分布の平均値の検定に正規分布を用いると、サンプルサイズが小さい場合にαエラーを過小評価してしまうという問題です。 今日はこの小標問題とそれを解決する t検定について R によるシミュレーションを使って説明してみたいと思います。 正規分布の平均値の検定 確率変数 が正規分布に従うとき、その平均値もまた、正規分布に従います。 数式で書くと、 となります。(分散が されていることに注意) なので、正規分布の平均値の検定には正規分布を使用すれば良いように思われます。 これを R でシミュレートしてみましょう。 # 正規分布を使用して平均値が 0 と等しいかの p値を求める norm

    小標本問題と t検定 - ほくそ笑む
    chiko
    chiko 2013/02/13
  • 統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ - ほくそ笑む

    『アート・オブ・Rプログラミング』の日語訳が出たので早速買いました。 細かい仕様の解説が多くちりばめられていて結構いい感じです。 プログラミング初心者向けではないですが、他の言語になじんでる人が R に入門したい場合には、他の入門書よりもこっちを読んだ方が手っ取り早いのではないかと思います。 例えば、下記のように、他言語との比較による解説が各所に見られます。 他のスクリプト言語の経験がある読者は、Python での None や Perl での undefined などの「存在しない」値を知っているかもしれません。実は、R にはこのような値が2つあります。NA と NULL です。 http://www.amazon.co.jp/gp/product/4873115795 さて、今日はこのの 1.7.4 節からの話題です。 統計言語 R には、公式ヘルプが付属しており、例えば平均値を計

    統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ - ほくそ笑む
    chiko
    chiko 2012/11/08
  • RPubs の新着記事をつぶやく Twitter Bot 作った - ほくそ笑む

    R ユーザのための Web サービス RPubs は、R で書かれたプログラムを実行結果つきで簡単に記事にしてアップロードできる仕組みを提供するサイトです。 teramonagi さん、wdkz さん、dichika さん、manozo さん、phosphor_m さんといった、R クラスタの有名人たちがこぞって使用を開始しているのを見ると、流行するきざしが感じ取れて期待が持てます。 先日の wdkz さんの発表資料を見て「自分も RPubs やりたい!」と思った人もいるんじゃないでしょうか。 私もその一人で、いきおいで RPubs に登録してみました。 が、しかし、まあ、なんというか・・・しょぼいです。 RPubs のサイトはまだ作り込まれていないらしく、ほとんど機能がありません。 せっかく上記の有名人たちをフォローしておいて、R の良質な情報源として活用できると期待していたのに、フォロ

    RPubs の新着記事をつぶやく Twitter Bot 作った - ほくそ笑む
    chiko
    chiko 2012/08/14
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • R を終了させる最短コードがおもしろい - ほくそ笑む

    R 環境を終了させたいときは、コマンドラインに q() と打てば終了できます。q() は quit() の省略形で、このままだと Save workspace image? [y/n/c]: などと聞かれるので、それがうっとおしい人は q("no") のように打てば確認されずに終了できます。 しかし、R を終了させるために 7 文字も打つのはめんどくさいと言う人たちがいます。 そういう人たちのために、 Q と打つだけで終了できるようにするテクニックがあります。 どういうテクニックかちょっとおさらいしておきましょう。*1 Q で R を終了させるテクニック まず、コマンドラインに x <- 3.14 x と打つと [1] 3.14 と表示されますね。 ここで、2行目の x は暗黙のうちに print(x) を呼び出していることを思い出してください。 print() は内部で UseMetho

    R を終了させる最短コードがおもしろい - ほくそ笑む
    chiko
    chiko 2012/01/06
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
    chiko
    chiko 2012/01/06
  • 1