[B! R] r_onodrのブックマーク

R {arules} によるアソシエーション分析をちょっと詳しく <1> - StatsFragments

今週は系列パターンマイニング用 R パッケージ {arulesSequences} と格闘していた。使い方にところどころよくわからないポイントがあり、思ったよりも時間がかかってしまった。関連パッケージである {arules} ともども、ネットには簡単な分析についての情報はあるが、データの作り方/操作についてはまとまったものがないようだ。とりあえず自分が調べたことをまとめておきたい。2 パッケージで結構なボリュームになるため、全 4 記事分くらいの予定。概要まずはパターンマイニングの手法を簡単に整理する。いずれもトランザクションと呼ばれるデータの系列を対象にする。トランザクションとは 1レコード中に複数の要素 (アイテム) を含むもの。例えば、 POSデータ: 1トランザクション = POSレジの売上 1回。アイテムはそのときに売れた個々の商品。アンケート調査: 1トランザクション

r_onodr 2015/09/04

リンク

Rで解析：インタラクティブな散布図作成！「pairsD3」パッケージ

関係性の把握には散布図が非常に有効と考えています。また、散布図をインタラクティブに操作することで、思いがけない発見をすることがあります。 Plotlyライブラリでもインタラクティブなグラフを作成できますが、散布図に特化した「pairsD3」パッケージが手軽なので紹介します。なお、作成した散布図はHTMLやshinyで出力できます。shinyの出力は更にインタラクティブです。パッケージのインストール#パッケージのインストール install.packages("pairsD3")実行コマンドの紹介pairsD3コマンドを実行すると、ブラウザが立ち上がり散布図が表示されます。RStudioはPlotビューア内に表示されます。 #ライブラリの読み込み library("pairsD3") #データの準備 TastData <- data.frame(X = runif(100), Y = r

r_onodr 2015/04/22

リンク

Rで密度推定 - どんな鳥も

ヒストグラムとカーネル密度推定についてすごく簡単にまとめました．Kashiwa.R#4で発表する内容を文章にしたものです．使用するデータセットまずここでは，faithful データセットの，eruption を例に用います．イエローストーン国立公園にあるOld Faithful間欠泉の噴出時間 (分) だそうです． # データセットの確認 head(faithful) # 噴出時間データのみを抜き出す fe <- faithful$eruption まず度数分布を見てみると以下のようになります． stem(fe) The decimal point is 1 digit(s) to the left of the | 16 | 070355555588 18 | 000022233333335577777777888822335777888 20 | 00002223378800035

r_onodr 2014/11/21

r

リンク

Rの簡単な手引き６

備忘録はじめてのR（その６）その３にてデータをファイルから読み込む方法を扱いましたが本日は『単回帰分析と予測』について説明しましょうその３に従い、(1) ディレクトリの変更 (2) データの読み込みをして下さい体重を身長の上に回帰します回帰分析のための関数『lm』を使いますなにやら数値（いうまでもなく切片と傾きの推定値）が出力されていますメモ　『lm』の中には回帰式の公式もどきを書くだけでよい (a) 『y~x』と記述した場合は回帰式『y=a+bx』の意味です (b) 『y~0+x』と記述した場合は切片項を除きますので回帰式『y=bx』の意味です (c) 『y~x1+x2』と記述した場合は重回帰式『y=a+b1 x1+b2 x2』の意味です (d) 『y~0+x1+x2』と記述した場合は重回帰式『y=b1 x1+b2 x2』の意味ですｔ値を出すには以下のようにして下さい　

r_onodr 2014/10/14

R
kokuryo

リンク

日本の新聞は全部書いていることが同じなのか？トピック分析で見る新聞社説｜CodeIQ MAGAZINE

日本は世界有数の新聞大国らしいのですが、数多くある新聞の内容を横並びで比較することってないですよね。果たして新聞社ごとの違いってあるのでしょうか？そこでEconometrician エール大学経済学部博士課程在学中の森浩太さんが、「トピック分析」と呼ばれるテキスト分析の手法を用いて、日本の新聞（全国五紙）を比較したレポートを紹介したいと思います。 by 馬場美由紀（CodeIQ中の人）トピック分析で検証する新聞社説日本の新聞発行部数の第一位は読売新聞、第二位は朝日新聞です。実はこの二紙は世界の中でも発行部数上位二紙です。毎日新聞、中日新聞、日経新聞なども上位に入っています。産経新聞は少し下ですが、それでもトップ20には入ります。人口比の発行部数でも日本はずっと上位です。最近は全体的に新聞の売れ行きは落ちてはいますが、日本の相対的な位置は変わっていません。日本は世界有数の新聞大

r_onodr 2014/08/23

nltk
R

リンク

質的変数の相関・因子分析

質的変数（順序尺度）に有用なポリコリック相関係数を紹介しています。また、ポリコリック相関係数を使った因子分析の方法も説明しています。Read less

r_onodr 2014/07/24

リンク

scratch-R: basic stats: power

いずれの関数も効果量、サンプルサイズ、有意水準、検定慮の4つのうち、いずれか3つを指定することで残りの1つを求めることができる。効果量はきちんと勉強してから計算しましょう。 t検定 t検定用の関数 pwr.t.test(n = , d = , sig.level = , power = , type = c("two.sample", "one.sample", "paired")) pwr.t2n.test関数は各群のサンプルサイズが異なるとき用の関数。データを収集した後で検定力を調べるのに使う。 t検定の効果量は以下の式で Cohenの効果量dは0.2が小さい、0.5が中程度、0.8が大きい、とされる "two-sided" (両側検定) がデフォ使用例まず2群の平均値差を調べる。先行研究から、平均値差が2.6くらい、各群の (不偏) 分散は11くらいになることがわかっている。先

r_onodr 2014/07/24

リンク

Google Sites: Sign-in

r_onodr 2014/07/19

R
SEM

リンク

我故意没有穿内裤坐公车让,少妇洗澡作爱,色妺妺免费影院

我故意没有穿内裤坐公车让,少妇洗澡作爱,色妺妺免费影院,亚洲欧洲无码专区AV,成年无码专区在线蜜芽TV,亚洲人成人77777网站,日本BBWBBW高潮BBW,久久99精品久久久久久婷婷,少妇按摩推油舒服到高潮连连,撕开奶罩揉吮奶头完整版

r_onodr 2014/07/19

R
統計

リンク

カテゴリカルデータの解析 (その2) - どんな鳥も

その1からのつづきです．変数間の関係性を調べる集計したカテゴリカルデータを解析する方法を紹介します．独立性の検定「変数のあいだに関連性があるか」を調べる検定です．先に紹介したArthritisで，処置と改善度合いのあいだに関連性があるかを調べてみましょう．この場合には，カイ二乗検定 (データ数が少ない場合にはフィッシャーの直接確率検定のほうがよい) を使います．帰無仮説「処置と改善度合いに関連性はない」を，カイ二乗検定で検討してみます． > chisq.test(arthritis.imp.tre) Pearson's Chi-squared test data: arthritis.imp.tre X-squared = 13.055, df = 2, p-value = 0.001463結果，p値 < 0.0015で，対立仮説「処置と改善度合いには関連性がある」をとることになり

r_onodr 2014/06/14

リンク

カテゴリカルデータの解析 (その1) - どんな鳥も

カテゴリカルデータの解析「アンケート」などに代表されるカテゴリカルデータの解析法についてざっとまとめました．Kashiwa.R#3で発表する内容を文章にしたものです．内容のほぼすべては，『カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)』藤井良宜 2010年共立出版を大いに参考にしています．要約 xtab()で集計変数間の関係性を調べるいろいろな方法があるみかけ上の相関に注意カテゴリカルデータとは？連続変数ではなくて，グループで分類されるような変数をもつデータです．「アンケート」が良い例．グループには，順序グループ (例: なし，軽度，重度) と名義グループ (例: 男性，女性，その他) の2種類があります．ここでは，データの項目のひとつを「変数」と呼び (例: 症状，性別)，項目に含まれる分類を「カテゴリー」と呼びます (例: {なし，軽度，重度}，{男性，

r_onodr 2014/06/14

リンク

米国金利を主成分分析＋ファクターの推移 – Momentum

概要・米国金利(今回はスワップレートを使用)の推移・主成分分析結果　よく言われるように3つの主成分で大体の変動は説明される・どの主成分がいつ効いているか(ファクター)の推移米国金利(スワップレート)の推移なんで米債の金利じゃないんですかと聞かれたらFRED先生がなぜかスワップレートしか提供してくれていないからです。米債の金利に関してはFEDか財務省あたりが公表しているとかしていないかという話も聞きますがデータの取得がめんど(― ―) まあ金利スワップも米債利回りも同じようなもんだからということで、データは以下からいつものように取得。 Interest Rate Swaps – FRED – St. Louis Fed http://research.stloui sfed.org/fred2/categories/32299 xts型としてswpという変数に格納したとします。ま

r_onodr 2014/06/08

R

リンク

TokyoWebmining - TokyoWebmining カテゴリ別発表資料

Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門：アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

r_onodr 2014/06/02

リンク

Cross Validated

Stack Exchange Network Stack Exchange network consists of 183 Q&A communities including Stack Overflow, the largest, most trusted online community for developers to learn, share their knowledge, and build their careers. Visit Stack Exchange

r_onodr 2014/05/20

統計
R

リンク

ログイン - はてな

パスワードを忘れた方はパスワードの再設定を行ってください。うまくログインできない方はお問い合わせをご覧いただき、Cookieの設定をご確認ください。

r_onodr 2014/05/14

R
NLP

リンク

「統計学関連なんでもあり」の過去ログ--- 043

No.11680　Ｒでwilcoxonの順位和検定　　【篠山】　2010/01/13(Wed) 10:24 Rでwilcoxonの順位和検定を行ったのですが，「タイがあるため，正確なP値を計算することができません。」との表示がでます。（2標本の間でサンプル数が異なること，同順位が存在します。）この結果のP値を論文などで用いていいのでしょうか？また，Wの分布を正規分布に近似させて検定を行う必要があるとのことを聞いたのですが，それはどうやったらいいのでしょうか。よろしくお願いします。 No.11682　Re: Rでwilcoxonの順位和検定　　【青木繁伸】　2010/01/13(Wed) 13:38 > Rでwilcoxonの順位和検定を行ったのですが，「タイがあるため，正確なP値を計算することができません。」との表示がでます。（2標本の間でサンプル数が異なること，同順位が存在しま

r_onodr 2014/04/16

wilcox.test タイがある場合

R

リンク

googleVis 0.5.1 released on CRAN | R-bloggers

r_onodr 2014/04/16

R

リンク

http://eau.uijin.com/advgraphs/axes.html

r_onodr 2014/03/25

プロットにラベル

R

リンク

『mac OS版 Rのplotで日本語表示をしてみた』

setHook(packageEvent("grDevices", "onLoad"), function(...){ if(.Platform$OS.type == "windows") grDevices::windowsFonts(sans ="MS Gothic", serif="MS Mincho", mono ="FixedFont") if(capabilities("aqua")) grDevices::quartzFonts( sans =grDevices::quartzFont( c("Hiragino Kaku Gothic Pro W3", "Hiragino Kaku Gothic Pro W6", "Hiragino Kaku Gothic Pro W3", "Hiragino Kaku Gothic Pro W6")), serif=grDevices::q

r_onodr 2014/03/25

日本語

R

リンク

Ｒと対応分析

対応分析(correspondence analysis)は、フランスのベンゼクリ(Benzecri)によって1960年代に提唱され、1970年代から普及し始めたカテゴリカルデータの解析方法で、コレスポンデンス分析とも呼ばれている。類似の方法としては、1940年代に林知己夫氏によって提案された数量化Ⅲ類、1980年代に西里静彦氏によって提案された双対尺度法(dual scaling)などがある。それぞれの方法が提案された背景は異なるが、基本的なアプローチおよびアルゴリズムの中核は同じである。　データ形式によっては、それぞれの手法の解析結果は変換によって一致させることも可能である。一時的には、数量化Ⅲ類と対応分析は異なるデータ分析方法と見なされたが、既に数理的には同等であることが証明されている。数量化Ⅲ類および対応分析の基本的考え方は、分割表において、行の項目と列の項目の相関が最大

r_onodr 2014/03/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

Rに関するr_onodrのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス