agwのブックマーク / 2014年8月13日 - はてなブックマーク

agw id:agw

2014年8月13日のブックマーク (13件)

R -- マハラノビスの距離による基準群への帰属確率
agw 2014/08/13
deferred

Statistics
リンク
環境と品質のためのデータサイエンス
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
agw 2014/08/13
deferred

Statistics
リンク
マハラノビス距離とユークリッド距離の違い
1. 2011.02 作成マハラノビス距離とユークリッド距離の違い車のスピードと停車するまでに必要な距離を測定した２変数の cars データセットを 100 120 用いて、データ中心からの各データポイント図1 の距離を測定する。我々が通常距離と呼んでいるものはユーク 80 リッド距離だが、相関のある多変量データを dist 60 取り扱う際にはマハラノビス距離の方が便利。 40 方法 1 標準化してユークリッド距離を測定 20 変数 dist と speed はそれぞれ尺度が違う 0 のでそのままで距離計算をすると第 1 変数 5 10 15 20 25 の影響が第 2 変数よりも大きくなる。 speed これを避けるために、まず２変数をそれぞれ標準化し(図 2)、それから二乗和の平方根をとって距離を計算する。 3 Histogram of d1 図2 2 図3 1 15
agw 2014/08/13
deferred

Statistics

R
リンク
アングルトライ株式会社 | MTシステム概要
agw 2014/08/13
Statistics
リンク
Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 渋谷駅前で働くデータサイエンティストのブログ
ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの実務でRandomForestを使ったときに聞かれたことへのオマージュです。というか、実は僕もこの記事を読んでから「多分Rなら専用の関数なんかもあるだろうし簡単にできるはず」と思って以前よりも積極的にやるようになったのでした（笑）。総論：何で機械学習するのにチューニングが必要なの？どんな機械学習でも、何かしらのチューニングパラメータを持っています。例えばソフトマージンSVMならマージンパラメータCがありますし、非線形ガウシアンカーネルSVMならさらにカーネルパラメータのσとかが入ります。SMO（逐次最大最適化）アルゴリズムを利用するのであれば、さらにさらにtoleranceとかも入ってきます。しかも、ちょっといじってみればすぐ分かると思う
agw 2014/08/13
deferred

RF

PRML

R
リンク
Rで決定木
せっかくRをインストールしたので、ちょっと例題をやってみることに。とりあえず決定木がわかりやすくていいんじゃないかな。ということで、aomeganeがデータマイニングを初めて勉強した時の本についていたサンプルデータを試してみる。データマイニング入門この本には、タイタニック号に乗っていた乗客に以下の属性をもたせたデータがついてくる。乗客[性別,大人子供,等級,生死] n=2201 これで、生死を分けたファクターを決定木によって探ってみることができる。 ※データの転載は著作権上できませんので、データが欲しい人は買うよろし。読みやすくてよい本です。 library(mvpart) deaddata <- read.csv("dead.csv", header=T) tree <- rpart(生死~等級+大人子ども+性別, data=deaddata, method="class")
agw 2014/08/13
RF

PRML

R
リンク
はてなブログ | 無料ブログを作成しよう
2024.8.23東北遠征登山〜蔵王昨年の月山遠征登山に引き続き、今年も不穏な天気を逃れてやって来たのはこちら。蔵王は、その名前の山はなく、付近の総称であり、山形側、宮城側などいくつもアプローチが出来てさらにリフトなども充実、おまけに山頂付近までは車でもアクセス可能という観光地である…
agw 2014/08/13
deferred

RF

PRML

R
リンク
Rによる決定木解析の一例
agw 2014/08/13
deferred

DT

PRML

R
リンク
ランダムフォレスト(Random Forest)法を用いて株価予測を行ってみた。-03
photo by Desktopography 第三回。それでは今回行った手法について概要を説明していきます。概要まず株価についてのデータが欲しかったので、pythonで株価をネット上からダウンロードして結合するスクリプトを作成。そしてその時系列データを元に前日のデルタ、ヒゲの長さ、出来高などの実測値、Moving Average,MACD,RSI,Bolinger Band,RW%R...などのテクニカル指標を合わせて70個ほど算出し、CSVデータとして保存します。 CSVデータをOpenOffice.orgで開いた状態。そのデータセットを元にR上で学習させます。予測させる数値は『翌日の終値-翌日の始値』とします。一応Rのソースを下に載せておきます。 > library("randomForest") #RFパッケージの読み込み randomForest 4.5-25 Type rf
agw 2014/08/13
情報量の多いエントリではない(やってみました、といった感じ)。

RF

PRML

R
リンク
RでrandomForestを試してみる - kj-ki’s blog
最後に，ランダムフォレストを試してみます．こいつはe1071に入ってはいないので，別途インストールが必要です．インストールやっぱりこれだけ...簡単すぎる． > install.packages('randomForest') iris実行コード&結果これまでのコードとほぼ同じで，特にrandomForest用のパラメータを加えなくても動作します．チューニング云々は別の機会に． library(randomForest) train <- seq.int(1, 150, by=2) test <- setdiff(1:150, train) iris.rf <- randomForest(Species~., data=iris[train,]) iris.pred <- predict(iris.rf, iris[test,]) table(iris[test,5], iris
agw 2014/08/13
情報量の多いエントリではない(やってみました、といった感じ)。

RF

PRML

R
リンク
Rと集団学習
集団学習(ensem ble learning)は、決して精度が高くない複数の結果を統合・組み合わせることで精度を向上させる機械学習方法である。複数の結果の統合・組み合わせの方法としては、分類問題では多数決、数値の予測(回帰)問題では平均が多く用いられている。集団学習では、異なる重み、あるいは異なるサンプルから単純なモデルを複数作成し、これらを何らかの方法で組み合わせることで、精度と汎化力を両立するモデルを構築する。本稿では、集団学習方法による、回帰・分類のアルゴリズムバギング(bagging)、ブースティング(boosting)、ランダム森(random forest)の基本概念およびこれらのRのパッケージと関数を紹介する。機械学習の問題では、学習によって回帰・分類を行うシステムを学習機械と呼ぶ。文献によっては学習機械を仮説(hypothesis)、分類器・識別器(classi
agw 2014/08/13
deferred

RF

PRML

R
リンク
実務でRandomForestを使ったときに聞かれたこと - shakezoの日記
Machine Learning Advent Calendar 2012 の 21 日目の記事です。私は普段は受託のデータ解析を仕事にしてます。過去に何度か実務でRandomForestを利用する機会がありましたので今日は以前顧客にプレゼンをした時に、質問された内容とその回答を紹介したいと思います。普段は機械学習・データマイニングを実務の立場利用しており、手法そのものの専門家ではないので、間違いなどが有りましたらご指摘ください。さてRandomForestは有名なアルゴリズムですので、ご存じの方も多いとは思いますが、CARTの開発者でもある、Leo Breimanが2001年に提案した決定木を用いた集団学習アルゴリズムの１つです。一言で言えば、大量の決定木を作成して、それぞれの決定木が出した答えを多数決し、最も支持の多かったクラスに分類する手法です。(回帰の場合は平均を返します） R
agw 2014/08/13
deferred

RF

PRML
リンク
randomForestで重要な説明変数を見つける - tkawachi Blog
Random forest といえば決定木を何本ももつアンサンブル学習で高い精度を持つ。けど、どの説明変数が効いているかは説明が難しいものだと思いこんでいた。ご近所のデータサイエンティストが R で効いている説明変数を出す方法を教えてくれたのでメモ。ここでは R についてきている iris データセットを使う。 irisはアヤメの種類に関するデータセットで、1936年という大昔にフィッシャーが論文で使った歴史のあるデータセットでもある。萼片 (sepal) の大きさ、花弁 (petal) の大きさ、アヤメの種類(species)が対になっている。 # iris dataset 読み込み > data("iris") > str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7
agw 2014/08/13
RF

PRML

R
リンク
- 2014年8月14日
- 2014年8月13日
- 2014年8月12日