Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
We bring together experts in distributed systems, compilers and formal methods to build scalable designs at the lowest complexity budget. Bugs are tedious to spot. So we build programs that find bugs in other programs. State what behaviours you want - we'll automate the rest. We have your back with millions of test cases generated on-the-fly and automatic analysis at every save. That lets you cont
久々のポスト。 広告配信やサイトのグロースハックなどにおいて複数の施策を試すとき、どの施策がどのくらい効果がありそれぞれバラツキがどの程度なのかを分析しながら施策の組み合わせを試したくなります。 その際に、お手軽でそこそこ理論的な裏付けも把握しやすい方法として 途中経過から効果の程度とそのバラツキを分析するために二項テスト 二項テストの結果から正規分布を仮定してポートフォリオ理論によって次の打ち手を決める という方法を考案してみました。 9/5修正:後半間違いがあったので2度修正しました。(二項分布の正規近似の分散パラメータを標本が大きいときの漸近的な値p(1-p)/nを使用するように修正) 試しながらやりたい方は、ソースがこちら(Chiral’s gist)に置いてあります。 二項テスト:途中実績から効果の程度とバラツキを分析 広告がA,B,Cと3つあり、それぞれ以下のように配信実績(I
今週は系列パターンマイニング用 R パッケージ {arulesSequences} と格闘していた。使い方にところどころよくわからないポイントがあり、思ったよりも時間がかかってしまった。 関連パッケージである {arules} ともども、ネットには簡単な分析についての情報はあるが、 データの作り方/操作についてはまとまったものがないようだ。とりあえず自分が調べたことをまとめておきたい。2 パッケージで結構なボリュームになるため、全 4 記事分くらいの予定。 概要 まずはパターンマイニングの手法を簡単に整理する。いずれもトランザクションと呼ばれるデータの系列を対象にする。トランザクションとは 1レコード中に複数の要素 (アイテム) を含むもの。例えば、 POSデータ: 1トランザクション = POSレジの売上 1回。アイテムはそのときに売れた個々の商品。 アンケート調査: 1トランザクション
リクルートの高柳さん、Yahooの簑田さんと共同で翻訳した本が出版されます。 「みんなのR」(原題:R for Everyone)です。 みんなのR -データ分析と統計解析の新しい教科書- 作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本(ソフトカバー)この商品を含むブログ (7件) を見る この本は、統計言語 R のインストール・基本的な使い方から始まり、統計解析の基礎からちょっと高度な話題まで、幅広く取り扱っています。 特徴としては、 RStudio の使用を推奨 グラフィクスはすべて ggplot2 を使用 plyr, data.table, stringr といった、モダンな便利パッケージを使用*1 説明に使用されるデータはすべて Web からダウンロード可能 R
書籍のタイトルは「データ分析プロセス」とありますが、偉い人を説得してどのようにデータを集めていくかを決めて、KPIをどう設定して~という、いわゆる啓蒙書ではありません。すでに顧客の行動データやPOSデータなどをデータベースに格納しつつあり、そこから例えば解約予測をするにはRで具体的にどうすればよいか、という問いに答えるRの本です。Useful RというRのシリーズ本の中の一冊であり、Rを使って機械学習をするためのエンジニア向けの本です。特におすすめする読者は、Rで機械学習をする人の他、欠損値・外れ値・不均衡データといったものにどういった対処方法があるのか知りたい、使ってみたいという人です。また、書籍のページではRのソースコードとともに対応するPythonのソースコードが一部提供されています。 まえがきには「本書では、可能な範囲で実データを使用した分析例を例示しようと心がけた」とあり、そのた
以下メモ 第48回R勉強会@東京(#TokyoR) : ATND 第48回R勉強会@東京(#TokyoR)の座席表 - セキココ 第48回R勉強会@東京まとめ - Togetterまとめ (2015.06.23)資料追加 前半セッション 10分で分かるR言語入門 転職おめでとうございます! これまでは本気でRやっていなかったのか。。。 続はじめてのR 第48回 Tokyo.Rの発表資料を公開しました。 「はじめてのR」 http://t.co/ttMBRJGskU #TokyoR— Minoda Takashi (@aad34210) 2015, 6月 22 Rのロゴがフラットデザインになった 「はじめてのR」のはじめては5年前 最近の傾向に沿って内容を改訂 後半セッション Rを極めて個人的な意思決定に活かす jaguchiパッケージ APIを統一インタフェースで呼び出しできる 盆栽 ・・
今回は、kaggle のOtto Group Production Classification Challenge の上位の方々が次元削除の手法としてt-SNE(t-distributed stochastic neighbor embedding) を使用されていたので調べてみようと思いました。個人的には、pca(主成分分析) ぐらいしか思い付かなかったのですが、それぞれ比較しながら見ていきます。 t-sne の詳細についてこちらを参考にするといいかと思います。 http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf こちらに書かれているようにt-SNE は高次元のものを2 または3 次元に写像するように作られています。とりあえず、R のtsne package を試してみます。(あとでより高速なRtsne
Hide Comments (–) Share Hide Toolbars
通常、データ分析というと、多変量解析、機械学習、時系列解析などの手法が取り上げられることが多い。しかし、実際のデータ分析では、適切なビジネス目標に基づいて分析計画を立案したうえでデータを収集・蓄積し、データ加工やデータ変換などの前処理を実行した後に分析手法を適切に適用し、得られた知見の活用方法について検討する必要がある。本書では、このようなデータ分析プロセスを実現できるようになることを目指して、収集・蓄積したデータに前処理を行い、データから相関やパターンなどの知見を抽出するための基本的な考え方や処理について、Rの実装方法を交えて説明する。 第1章 データ分析のプロセス 1.1 データ分析で直面する課題の例 1.2 データ分析のプロセス 1.3 CRISP-DM 1.4 KDDプロセス 1.5 本書の目的と構成 第2章 基本的なデータ操作 2.1 データの入出力 2.2 データフレームのハン
概要 未知パラメータ(ノイズの分散など)を含む場合のパーティクルフィルタの実装 システムノイズが正規分布の場合とコーシー分布の場合の比較 システムノイズが正規分布の場合 詳しい理論に関しては参考文献のP.225辺りからを御覧ください。 library(pipeR) library(dlm) #------------------------------------------------------------------------------ # Generate sample data #------------------------------------------------------------------------------ mod <- dlmModPoly(1, dV = 2, dW = 1, m0 = 10, C0 = 9) n <- 100 set.seed
本記事は発展的な話題です。かつて@Med_KUさんのブログ記事「てさぐれ!!RStanもの」で出てきた例題は局所最適値(local minimum)が多くて、Stanで実行する際も初期値をかなりピシッと決めておかないとダメな例題でした。 しかし、モデルが高次元になってくると最初から“それらしい”初期値なんて分かりようがないし、そもそも理論的にはどんな初期値からはじめても長い間iterationをとれば大域最適値に到達してほしいです。しかし、Stanとは言え、現実的な時間内では局所最適値につかまります。溝が少し深いと出てこれません。そんな状況を打破するための発展的なMCMCの手法の1つに「レプリカ交換法(replica exchange method)」というものがあります。パラレルテンパリング(parallel tempering)としても知られています。 例によってここでは詳しく説明しま
Machine Learning Studio (classic) will be retired by 31 August 2024 – transition to Azure Machine Learning Azure Machine Learning now provides rich, consolidated capabilities for model training and deploying, we'll retire the older Machine Learning Studio (classic) service on 31 August 2024. Please transition to using Azure Machine Learning by that date. From now through 31 August 2024, you can co
対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標本問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-
あけましておめでとうございます。 某書が話題になっているそうですが、直接確かめる度胸はないので形態素で把握します。 形態素の処理は適当です。 # 参考 https://gist.github.com/r-linux/4958fd92355dbae01c7b library(RMeCab) library(XML) library(dplyr) u <- "http://fox.2ch.net/test/read.cgi/poverty/1420023769/" dat_freq <- htmlParse(u) %>% xpathSApply('//dd',xmlValue) %>% paste(collapse="。") %>% RMeCabC() %>% unlist %>% data_frame(POS1=names(.), TERM=.) %>% filter (POS1 %in%
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く