タグ

2014年8月13日のブックマーク (13件)

  • R -- マハラノビスの距離による基準群への帰属確率

  • 環境と品質のためのデータサイエンス

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • マハラノビス距離とユークリッド距離の違い

    1. 2011.02 作成 マハラノビス距離とユークリッド距離の違い 車のスピードと停車するまでに必要な距 離を測定した2変数の cars データセットを 100 120 用いて、データ中心からの各データポイント 図1 の距離を測定する。 我々が通常距離と呼んでいるものはユーク 80 リッド距離だが、相関のある多変量データを dist 60 取り扱う際にはマハラノビス距離の方が便利。 40 方法 1 標準化してユークリッド距離を測定 20 変数 dist と speed はそれぞれ尺度が違う 0 のでそのままで距離計算をすると第 1 変数 5 10 15 20 25 の影響が第 2 変数よりも大きくなる。 speed これを避けるために、 まず2変数をそれぞ れ標準化し(図 2)、それから二乗和の平方根 をとって距離を計算する。 3 Histogram of d1 図2 2 図3 1 15

    マハラノビス距離とユークリッド距離の違い
  • アングルトライ株式会社 | MTシステム概要

  • Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 渋谷駅前で働くデータサイエンティストのブログ

    ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの 実務でRandomForestを使ったときに聞かれたこと へのオマージュです。というか、実は僕もこの記事を読んでから「多分Rなら専用の関数なんかもあるだろうし簡単にできるはず」と思って以前よりも積極的にやるようになったのでした(笑)。 総論:何で機械学習するのにチューニングが必要なの? どんな機械学習でも、何かしらのチューニングパラメータを持っています。例えばソフトマージンSVMならマージンパラメータCがありますし、非線形ガウシアンカーネルSVMならさらにカーネルパラメータのσとかが入ります。SMO(逐次最大最適化)アルゴリズムを利用するのであれば、さらにさらにtoleranceとかも入ってきます。 しかも、ちょっといじってみればすぐ分かると思う

    Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 渋谷駅前で働くデータサイエンティストのブログ
  • Rで決定木

    せっかくRをインストールしたので、ちょっと例題をやってみることに。 とりあえず決定木がわかりやすくていいんじゃないかな。 ということで、aomeganeがデータマイニングを初めて勉強した時のについていたサンプルデータを試してみる。 データマイニング入門 このには、タイタニック号に乗っていた乗客に以下の属性をもたせたデータがついてくる。 乗客[性別,大人子供,等級,生死] n=2201 これで、生死を分けたファクターを決定木によって探ってみることができる。 ※データの転載は著作権上できませんので、データが欲しい人は買うよろし。読みやすくてよいです。 library(mvpart) deaddata <- read.csv("dead.csv", header=T) tree <- rpart(生死~等級+大人子ども+性別, data=deaddata, method="class")

    Rで決定木
    agw
    agw 2014/08/13
  • はてなブログ | 無料ブログを作成しよう

    2024.8.23東北遠征登山〜蔵王 昨年の月山遠征登山に引き続き、今年も不穏な天気を逃れてやって来たのはこちら。 蔵王は、その名前の山はなく、付近の総称であり、山形側、宮城側などいくつもアプローチが出来てさらにリフトなども充実、おまけに山頂付近までは車でもアクセス可能という観光地である…

    はてなブログ | 無料ブログを作成しよう
  • Rによる決定木解析の一例

  • ランダムフォレスト(Random Forest)法を用いて株価予測を行ってみた。-03

    photo by Desktopography 第三回。それでは今回行った手法について概要を説明していきます。 概要まず株価についてのデータが欲しかったので、pythonで株価をネット上からダウンロードして結合するスクリプトを作成。そしてその時系列データを元に前日のデルタ、ヒゲの長さ、出来高などの実測値、Moving Average,MACD,RSI,Bolinger Band,RW%R...などのテクニカル指標を合わせて70個ほど算出し、CSVデータとして保存します。 CSVデータをOpenOffice.orgで開いた状態。 そのデータセットを元にR上で学習させます。予測させる数値は『翌日の終値-翌日の始値』とします。一応Rのソースを下に載せておきます。 > library("randomForest") #RFパッケージの読み込み randomForest 4.5-25 Type rf

    ランダムフォレスト(Random Forest)法を用いて株価予測を行ってみた。-03
    agw
    agw 2014/08/13
    情報量の多いエントリではない(やってみました、といった感じ)。
  • RでrandomForestを試してみる - kj-ki’s blog

    最後に,ランダムフォレストを試してみます. こいつはe1071に入ってはいないので,別途インストールが必要です. インストール やっぱりこれだけ...簡単すぎる. > install.packages('randomForest') iris実行コード&結果 これまでのコードとほぼ同じで,特にrandomForest用のパラメータを加えなくても動作します. チューニング云々は別の機会に. library(randomForest) train <- seq.int(1, 150, by=2) test <- setdiff(1:150, train) iris.rf <- randomForest(Species~., data=iris[train,]) iris.pred <- predict(iris.rf, iris[test,]) table(iris[test,5], iris

    RでrandomForestを試してみる - kj-ki’s blog
    agw
    agw 2014/08/13
    情報量の多いエントリではない(やってみました、といった感じ)。
  • Rと集団学習

    集団学習(ensemble learning)は、決して精度が高くない複数の結果を統合・組み合わせることで精度を向上させる機械学習方法である。複数の結果の統合・組み合わせの方法としては、分類問題では多数決、数値の予測(回帰)問題では平均が多く用いられている。 集団学習では、異なる重み、あるいは異なるサンプルから単純なモデルを複数作成し、これらを何らかの方法で組み合わせることで、精度と汎化力を両立するモデルを構築する。 稿では、集団学習方法による、回帰・分類のアルゴリズムバギング(bagging)、ブースティング(boosting)、ランダム森(random forest)の基概念およびこれらのRのパッケージと関数を紹介する。 機械学習の問題では、学習によって回帰・分類を行うシステムを学習機械と呼ぶ。文献によっては学習機械を仮説(hypothesis)、分類器・識別器(classi

  • 実務でRandomForestを使ったときに聞かれたこと - shakezoの日記

    Machine Learning Advent Calendar 2012 の 21 日目の記事です。 私は普段は受託のデータ解析を仕事にしてます。過去に何度か実務でRandomForestを利用する機会がありましたので今日は以前顧客にプレゼンをした時に、質問された内容とその回答を紹介したいと思います。普段は機械学習・データマイニングを実務の立場利用しており、手法そのものの専門家ではないので、間違いなどが有りましたらご指摘ください。 さてRandomForestは有名なアルゴリズムですので、ご存じの方も多いとは思いますが、CARTの開発者でもある、Leo Breimanが2001年に提案した決定木を用いた集団学習アルゴリズムの1つです。一言で言えば、大量の決定木を作成して、それぞれの決定木が出した答えを多数決し、最も支持の多かったクラスに分類する手法です。(回帰の場合は平均を返します) R

    実務でRandomForestを使ったときに聞かれたこと - shakezoの日記
  • randomForestで重要な説明変数を見つける - tkawachi Blog

    Random forest といえば決定木を何ももつアンサンブル学習で高い精度を持つ。 けど、どの説明変数が効いているかは説明が難しいものだと思いこんでいた。 ご近所のデータサイエンティストが R で効いている説明変数を出す方法を教えてくれたのでメモ。 ここでは R についてきている iris データセットを使う。 irisはアヤメの種類に関するデータセットで、1936年という大昔に フィッシャー が論文で使った歴史のあるデータセットでもある。 萼片 (sepal) の大きさ、花弁 (petal) の大きさ、アヤメの種類(species)が対になっている。 # iris dataset 読み込み > data("iris") > str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7

    randomForestで重要な説明変数を見つける - tkawachi Blog
    agw
    agw 2014/08/13