サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
猫
nakhirot.hatenablog.com
0. データの紹介 今回は下記の本のサンプルデータを用いて、アンケート調査結果の分析における信頼区間の利用例を示してみたい。 データの定義は次の通り。(少し長いです) このアンケートデータはビールのブランドイメージについての調査結果です。まず、Q1は認知、Q2は飲用経験について。 Q3は味・香りに関する印象について。 Q4は飲んだ時の気分について。回答内容はQ3と同様、1(そう思う)~5(そう思わない)で評価する。 Q5, Q6はアルコール飲料のイメージについて。回答内容はQ3と同様。 Q7は飲用場面についての項目。回答内容はQ3と同様。 最後に属性情報。 1. 分析の前提 今回は、ビールメーカーのマーケティング担当者として、以下のシチュエーションで分析を行うことにする。 1.1 ケース サッポロビールのマーケティング担当者として、自社製品と他社製品のブランド認知とイメージを調査するた
0. 使用するデータと仮説立案 今回はサッカーの勝敗・試合内容の履歴データから、勝敗の要因や勝敗を予測するモデルを作成してみたい。使用するデータはこちら(出典:Football LAB)。(少し長いです) 0.1 今回の分析の目的 ビッグデータはビジネスの世界のみならず、スポーツにまで大きく影響を与えている。大量データの処理、保存が可能になったことで、スポーツに関するデータ分析が進展し、これまでの常識を大きく覆されることもあるようだ。今回は、Jリーグの過去の試合データ決定木を用いて分析し、サッカーの勝利に寄与する要因の分析と勝敗の予測を実施していきたい。 0.2 フィッシュボーン図で仮説を立てる 今回は「試合の勝敗」について興味があるので、フィッシュボーン図で影響する要因の仮説を立てる。以下のようになる。 1. 勝因分析 1.1 決定木分析による要因分析 決定木分析の活用方法としては、大
#########1.データの取り込み######### #分析対象データは、これと同じ #install.packages("kernlab") ※初回のみ左記コマンドを実行 library(kernlab) data(spam) head(spam) #項目名を確認 #データ型を確認 for (i in 1:ncol(spam)) { print(c(names(spam[i]),class(spam[,i]))) } #欠損値の有無 sum(is.na(spam)) #項目名の解説は、http://archive.ics.uci.edu/ml/datasets/Spambaseに掲載されている #########2.Validate data, Train dataの生成######### set.seed(2) #一定の結果を得るための乱数セット trainNO <- sample
今回は、下記サンプルデータを用いて商品開発における各要素の最適な組み合わせを見つけ出す方法を紹介したい。 1. 分析の前提 今回は、大手百貨店の商品企画部として、以下のシチュエーションで分析を行うこととする。ある大手百貨店の飲食店のテナントでお昼にお弁当を販売することになった。もっともよく売れるお弁当の中身を考えるため、各項目について以下の選択肢を定めた。 ‐穀物:ご飯,麺 ‐メインのおかず:ビーフ,フィッシュ,チキン ‐サブのおかず:ゆで卵,エビ,ソーセージ ‐野菜:オニオン,キャロット,ポテト ‐野菜の量:多い,普通,少ない ‐つけあわせ:チーズ,コーン,オリーブ ‐穀物の量:少な目,ふつう,大盛り ‐価格:350円,450円,550円 項目の組合せを決めて、常連のお客様にアンケートを行い、点数をつけて貰うことにする。 2. 直交表によるパターン数の削減 本来ならば、穀物、メイン、
前回、3次元データ(3列のデータ)の2次元カーネル推定を行ったが、別の手段を考える必要が出てきた。2次元のカーネル推定と言っても、 点(x,y)の分布から点の密度を滑らかな関数で推定する場合 点(x,y,z)の分布が与えられている場合に滑らかな分布の形状を推定する場合 では、Rの操作は異なる。今回は後者をやりたいのだが、ここに載っているkde2d関数を使う方法は実質zが整数値かつ(整形後データの規模が)Rで扱える程の小さい値であることが前提なので、今回はkde2d関数は使えないと考えた。 そもそも、こちらを見るとわかるように後者の場合は「カーネル推定」というよりは「空間補間」の問題であるのではないか。…というわけでRの関数を探した。krigeという関数が「クリギング」という手法で補間をやってくれる。 空間補間をするにはpackage 'sp' 'gstat' を使う。 まずは下準備。 li
現在は時系列解析にプライオリティを置いているが、前勉強した機械学習の手法があったので復習を兼ねて載せる。 こちらで、決定木(Decision Tree)のモデル作成と評価を行った。その精度を高めるために開発されたランダムフォレストという機械学習の手法の一種を使ってみる。 ランダムフォレストとは、以下のようにサンプルデータから多数の決定木を作成し、その多数決で予測を行うモデルである。(図は昔使ったパワポから抜粋) RではrandomForest関数によって、このモデルを作成可能。データは以前も使ったhttp://archive.ics.uci.edu/ml/datasets/Spambase に掲載されているspamメールの特徴をまとめたデータ。以下は前回のコードの続き。 library(randomForest) train_rf <- randomForest(type~., data=
#ロジスティクス回帰分析は、1つのカテゴリカル変数を目的変数 #とし、その目的変数を説明変数で説明するモデルによる分析方法。 #より実践的なのはこちら ################目的変数が2値の場合################ ##単項多重ロジスティック回帰 #個票データが与えられている場合 library(vcd) head(SpaceShuttle) glm(formula = Fail ~ Temperature, data = SpaceShuttle, family = binomial) #集計データが与えられている場合 library(MASS) head(housing) #集計データ glm(formula = Sat ~ Cont, data = housing, weight = Freq, family = binomial) #カテゴリーごとにYesとN
SARIMAモデルとは ARIMAモデルの変化形であるSARIMAモデルの確認を忘れていた。SARIMAモデルとは、通常のARIMA(p,d,q)と季節階差に関するARIMA(k,l,m)を合わせたモデル。季節階差とは、例えば「前年同期との差」のこと。1周期がsである場合に、季節階差を と書くことが出来る。l回季節階差をとった場合はと書く。がAR過程に従うのであれば、 として、 (1) と書ける。MA過程部分を として(1)に追加すれば、 (2) と書ける。(2)はがARIMA(k,l,m)に従うモデル。このモデルは間の関係のみを含んでいるため、これに通常のに関するARIMA(p,d,q)を重ねる。 (3) もちろん、 という意味。…なので、(3)は季節階差がARIMA(k,l,m)に従う系列が、ARIMA(p,d,q)に従うモデルを意味する。これをSARIMA(seasonal ARIM
このページを最初にブックマークしてみませんか?
『DSL_statblog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く