タグ

Rに関するr_onodrのブックマーク (26)

  • R {arules} によるアソシエーション分析をちょっと詳しく <1> - StatsFragments

    今週は系列パターンマイニング用 R パッケージ {arulesSequences} と格闘していた。使い方にところどころよくわからないポイントがあり、思ったよりも時間がかかってしまった。 関連パッケージである {arules} ともども、ネットには簡単な分析についての情報はあるが、 データの作り方/操作についてはまとまったものがないようだ。とりあえず自分が調べたことをまとめておきたい。2 パッケージで結構なボリュームになるため、全 4 記事分くらいの予定。 概要 まずはパターンマイニングの手法を簡単に整理する。いずれもトランザクションと呼ばれるデータの系列を対象にする。トランザクションとは 1レコード中に複数の要素 (アイテム) を含むもの。例えば、 POSデータ: 1トランザクション = POSレジの売上 1回。アイテムはそのときに売れた個々の商品。 アンケート調査: 1トランザクション

    R {arules} によるアソシエーション分析をちょっと詳しく <1> - StatsFragments
  • Rで解析:インタラクティブな散布図作成!「pairsD3」パッケージ

    関係性の把握には散布図が非常に有効と考えています。また、散布図をインタラクティブに操作することで、思いがけない発見をすることがあります。 Plotlyライブラリでもインタラクティブなグラフを作成できますが、散布図に特化した「pairsD3」パッケージが手軽なので紹介します。 なお、作成した散布図はHTMLやshinyで出力できます。shinyの出力は更にインタラクティブです。 パッケージのインストール#パッケージのインストール install.packages("pairsD3")実行コマンドの紹介pairsD3コマンドを実行すると、ブラウザが立ち上がり散布図が表示されます。RStudioはPlotビューア内に表示されます。 #ライブラリの読み込み library("pairsD3") #データの準備 TastData <- data.frame(X = runif(100), Y = r

    Rで解析:インタラクティブな散布図作成!「pairsD3」パッケージ
  • Rで密度推定 - どんな鳥も

    ヒストグラムとカーネル密度推定についてすごく簡単にまとめました.Kashiwa.R#4で発表する内容を文章にしたものです. 使用するデータセットまずここでは,faithful データセットの,eruption を例に用います. イエローストーン国立公園にあるOld Faithful間欠泉の噴出時間 (分) だそうです. # データセットの確認 head(faithful) # 噴出時間データのみを抜き出す fe <- faithful$eruption まず度数分布を見てみると以下のようになります. stem(fe) The decimal point is 1 digit(s) to the left of the | 16 | 070355555588 18 | 000022233333335577777777888822335777888 20 | 00002223378800035

    Rで密度推定 - どんな鳥も
    r_onodr
    r_onodr 2014/11/21
  • Rの簡単な手引き6

    備忘録 はじめてのR(その6) その3にてデータをファイルから読み込む方法を扱いましたが 日は『単回帰分析と予測』について説明しましょう その3に従い、(1) ディレクトリの変更 (2) データの読み込みをして下さい 体重を身長の上に回帰します 回帰分析のための関数『lm』を使います なにやら数値(いうまでもなく切片と傾きの推定値)が出力されています メモ 『lm』の中には回帰式の公式もどきを書くだけでよい (a) 『y~x』と記述した場合は回帰式『y=a+bx』の意味です (b) 『y~0+x』と記述した場合は切片項を除きますので回帰式『y=bx』の意味です (c) 『y~x1+x2』と記述した場合は重回帰式『y=a+b1 x1+b2 x2』の意味です (d) 『y~0+x1+x2』と記述した場合は重回帰式『y=b1 x1+b2 x2』の意味です t値を出すには以下のようにして下さい 

    Rの簡単な手引き6
  • 日本の新聞は全部書いていることが同じなのか?トピック分析で見る新聞社説|CodeIQ MAGAZINE

    は世界有数の新聞大国らしいのですが、数多くある新聞の内容を横並びで比較することってないですよね。果たして新聞社ごとの違いってあるのでしょうか? そこでEconometrician エール大学経済学博士課程在学中の森 浩太さんが、「トピック分析」と呼ばれるテキスト分析の手法を用いて、日の新聞(全国五紙)を比較したレポートを紹介したいと思います。 by 馬場美由紀 (CodeIQ中の人) トピック分析で検証する新聞社説 日の新聞発行部数の第一位は読売新聞、第二位は朝日新聞です。実はこの二紙は世界の中でも発行部数上位二紙です。毎日新聞、中日新聞、日経新聞なども上位に入っています。 産経新聞は少し下ですが、それでもトップ20には入ります。人口比の発行部数でも日はずっと上位です。最近は全体的に新聞の売れ行きは落ちてはいますが、日の相対的な位置は変わっていません。 日は世界有数の新聞大

    日本の新聞は全部書いていることが同じなのか?トピック分析で見る新聞社説|CodeIQ MAGAZINE
    r_onodr
    r_onodr 2014/08/23
  • 質的変数の相関・因子分析

    質的変数(順序尺度)に有用なポリコリック相関係数を紹介しています。 また、ポリコリック相関係数を使った因子分析の方法も説明しています。Read less

    質的変数の相関・因子分析
  • scratch-R: basic stats: power

    いずれの関数も効果量、サンプルサイズ、有意水準、検定慮の4つのうち、いずれか3つを指定することで残りの1つを求めることができる。 効果量はきちんと勉強してから計算しましょう。 t検定 t検定用の関数 pwr.t.test(n = , d = , sig.level = , power = , type = c("two.sample", "one.sample", "paired")) pwr.t2n.test関数は各群のサンプルサイズが異なるとき用の関数。データを収集した後で検定力を調べるのに使う。 t検定の効果量は以下の式で Cohenの効果量dは0.2が小さい、0.5が中程度、0.8が大きい、とされる "two-sided" (両側検定) がデフォ 使用例 まず2群の平均値差を調べる。先行研究から、平均値差が2.6くらい、各群の (不偏) 分散は11くらいになることがわかっている。先

  • Google Sites: Sign-in

    r_onodr
    r_onodr 2014/07/19
  • 我故意没有穿内裤坐公车让,少妇洗澡作爱,色妺妺免费影院

    我故意没有穿内裤坐公车让,少妇洗澡作爱,色妺妺免费影院,亚洲欧洲无码专区AV,成年无码专区在线蜜芽TV,亚洲人成人77777网站,日BBWBBW高潮BBW,久久99精品久久久久久婷婷,少妇按摩推油舒服到高潮连连,撕开奶罩揉吮奶头完整版

  • カテゴリカルデータの解析 (その2) - どんな鳥も

    その1からのつづきです. 変数間の関係性を調べる集計したカテゴリカルデータを解析する方法を紹介します. 独立性の検定「変数のあいだに関連性があるか」を調べる検定です. 先に紹介したArthritisで,処置と改善度合いのあいだに関連性があるかを調べてみましょう.この場合には,カイ二乗検定 (データ数が少ない場合にはフィッシャーの直接確率検定のほうがよい) を使います. 帰無仮説「処置と改善度合いに関連性はない」を,カイ二乗検定で検討してみます. > chisq.test(arthritis.imp.tre) Pearson's Chi-squared test data: arthritis.imp.tre X-squared = 13.055, df = 2, p-value = 0.001463結果,p値 < 0.0015で,対立仮説「処置と改善度合いには関連性がある」をとることになり

    カテゴリカルデータの解析 (その2) - どんな鳥も
  • カテゴリカルデータの解析 (その1) - どんな鳥も

    カテゴリカルデータの解析 「アンケート」などに代表されるカテゴリカルデータの解析法についてざっとまとめました.Kashiwa.R#3で発表する内容を文章にしたものです. 内容のほぼすべては,『カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)』 藤井良宜 2010年 共立出版 を大いに参考にしています. 要約 xtab()で集計 変数間の関係性を調べるいろいろな方法がある みかけ上の相関に注意 カテゴリカルデータとは?連続変数ではなくて,グループで分類されるような変数をもつデータです. 「アンケート」が良い例.グループには,順序グループ (例: なし,軽度,重度) と名義グループ (例: 男性,女性,その他) の2種類があります. ここでは,データの項目のひとつを「変数」と呼び (例: 症状,性別),項目に含まれる分類を「カテゴリー」と呼びます (例: {なし,軽度,重度},{男性,

    カテゴリカルデータの解析 (その1) - どんな鳥も
  • 米国金利を主成分分析+ファクターの推移 – Momentum

    概要 ・米国金利(今回はスワップレートを使用)の推移 ・主成分分析結果 よく言われるように3つの主成分で大体の変動は説明される ・どの主成分がいつ効いているか(ファクター)の推移 米国金利(スワップレート)の推移 なんで米債の金利じゃないんですかと聞かれたらFRED先生がなぜかスワップレートしか提供してくれていないからです。 米債の金利に関してはFEDか財務省あたりが公表しているとかしていないかという話も聞きますがデータの取得がめんど(― ―) まあ金利スワップも米債利回りも同じようなもんだからということで、データは以下からいつものように取得。 Interest Rate Swaps – FRED – St. Louis Fed http://research.stlouisfed.org/fred2/categories/32299 xts型としてswpという変数に格納したとします。 ま

    米国金利を主成分分析+ファクターの推移 – Momentum
    r_onodr
    r_onodr 2014/06/08
  • TokyoWebmining - TokyoWebmining カテゴリ別発表資料

    Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

  • Cross Validated

    Stack Exchange Network Stack Exchange network consists of 183 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. Visit Stack Exchange

    Cross Validated
  • ログイン - はてな

    パスワードを忘れた方はパスワードの再設定を行ってください。 うまくログインできない方はお問い合わせをご覧いただき、Cookieの設定をご確認ください。

    ログイン - はてな
    r_onodr
    r_onodr 2014/05/14
  • 「統計学関連なんでもあり」の過去ログ--- 043

    No.11680 Rでwilcoxonの順位和検定  【篠山】 2010/01/13(Wed) 10:24 Rでwilcoxonの順位和検定を行ったのですが, 「タイがあるため,正確なP値を計算することができません。」との表示がでます。 (2標の間でサンプル数が異なること,同順位が存在します。) この結果のP値を論文などで用いていいのでしょうか? また,Wの分布を正規分布に近似させて検定を行う必要があるとのことを聞いたのですが,それはどうやったらいいのでしょうか。 よろしくお願いします。 No.11682 Re: Rでwilcoxonの順位和検定  【青木繁伸】 2010/01/13(Wed) 13:38 > Rでwilcoxonの順位和検定を行ったのですが,「タイがあるため,正確なP値を計算することができません。」との表示がでます。(2標の間でサンプル数が異なること,同順位が存在しま

    r_onodr
    r_onodr 2014/04/16
    wilcox.test タイがある場合
  • googleVis 0.5.1 released on CRAN | R-bloggers

    r_onodr
    r_onodr 2014/04/16
  • http://eau.uijin.com/advgraphs/axes.html

    r_onodr
    r_onodr 2014/03/25
    プロットにラベル
  • 『mac OS版 Rのplotで日本語表示をしてみた』

    setHook(packageEvent("grDevices", "onLoad"), function(...){ if(.Platform$OS.type == "windows") grDevices::windowsFonts(sans ="MS Gothic", serif="MS Mincho", mono ="FixedFont") if(capabilities("aqua")) grDevices::quartzFonts( sans =grDevices::quartzFont( c("Hiragino Kaku Gothic Pro W3", "Hiragino Kaku Gothic Pro W6", "Hiragino Kaku Gothic Pro W3", "Hiragino Kaku Gothic Pro W6")), serif=grDevices::q

    『mac OS版 Rのplotで日本語表示をしてみた』
    r_onodr
    r_onodr 2014/03/25
    日本語
  • Rと対応分析

    対応分析(correspondence analysis)は、フランスのベンゼクリ(Benzecri)によって1960年代に提唱され、1970年代から普及し始めたカテゴリカルデータの解析方法で、コレスポンデンス分析とも呼ばれている。 類似の方法としては、1940年代に林知己夫氏によって提案された数量化Ⅲ類、1980年代に西里静彦氏によって提案された双対尺度法(dual scaling)などがある。それぞれの方法が提案された背景は異なるが、基的なアプローチおよびアルゴリズムの中核は同じである。  データ形式によっては、それぞれの手法の解析結果は変換によって一致させることも可能である。一時的には、数量化Ⅲ類と対応分析は異なるデータ分析方法と見なされたが、既に数理的には同等であることが証明されている。 数量化Ⅲ類および対応分析の基的考え方は、分割表において、行の項目と列の項目の相関が最大