Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R本 Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行本購入: 64人 クリック: 782回この商品を含
主成分分析(PCA)とは、特徴量の次元がバカでかくなりすぎた場合に行われる次元収縮の手法である。 参考: http://www-pse.cheme.kyoto-u.ac.jp/~kano/document/text-PCA.pdf http://aoki2.si.gunma-u.ac.jp/lecture/PCA/index.html 主成分分析は広く知られている手法で、統計学で習った人も多いかもしれない。 パターン認識の分野では、この主成分分析と組み合わせて、独立成分分析(ICA)がしばしば使われる。 独立成分分析と主成分分析の処理は似ている。だが、主成分分析は(主成分の)軸は直交しなければいけないのに対して、独立成分分析では軸は直交しなくてもよいという点が違う。独立成分分析では、データ分布の独立性を見るのだ。 独立成分分析は fastICA ( http://www.cis
Googleが10万台のハードディスクを使用した結果、ハードディスクは温度や使用頻度に関係なく故障するという結論を出した恐るべきレポートに続き、CMU’s Parallel Data LabのBianca Schroeder氏が、「現実世界でのハードディスクの故障:平均故障時間100万時間とは一体どういう意味なのか?」というレポートを出しました。ハードディスクに関する以下の常識はいずれも根拠のないものだという内容です。 1.高価なSCSI/FCドライブの方が安価なSATAドライブよりも信頼できる 2.RAID5が安全なのは2台のドライブが同時に故障する確率がとても低いため 3.初期の故障しやすい時期を超えれば耐用年数に達するまで壊れないという信頼が高まる 4.ハードディスクメーカーのいうMTBF(平均故障間隔)はハードディスクドライブを比較するのに有益な尺度である もはや一体何を信じればい
大学1年から生物学部とか経済学部に在籍している人なんかは、「統計学」の体系的なトレーニング受けざるを得ないと思うので問題はないのですが、問題はそういうトレーニングをすっ飛ばしたまま、統計解析が必要になる人の場合。例えば、学部時代は英米文学専攻で統計に無縁だったけれど、大学院で英語教育系に転向した人。あるいは、教育方法論系の研究室にいてフィールドワークばっかりやっていたけれど、統計系の分析も必要になった場合。 1. 先輩から教えてもらわない まず、一番やってはいけないのが、先輩の院生に教えてもらうということ。「あの先輩に、色々教えてもらいたい(ハート)」など下心がある場合はまた別ですが、純粋に統計学“だけ”を学びたいなら先輩に教えてもらうのは危険です。 あなたは統計学初心者ならば、その先輩が「きちんと統計解析を理解している」かどうかを知る術はありません。周囲の評判というのもありますが、そもそ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く