タグ

ブックマーク / hoxo-m.hatenablog.com (13)

  • Facebookの予測ツールProphetについて発表しました - ほくそ笑む

    Facebook が出した誰でも簡単に時系列予測ができるツール Prophet についていくつか発表しました。 Prophet入門【Python編】 Prophet入門【R編】 Prophet入門【理論編】 Prophetはビジネス時系列、すなわち人間の行動に左右される時系列データに対する自動予測ツールです。 ビジネスでは大量の時系列データに対する予測を作成する必要があります。 しかし、それを1人のデータ分析者が1つ1つ作っていくのでは手が足りません。 そこで、統計の知識を必要しない、誰にでも簡単に時系列予測を行うツールとして Prophet が作成されました。 Prophet はオープンソースで開発され、Python と R のライブラリが公開されています。 まずは今年5月に Python版についての発表を foundIT データ解析・機械学習セミナー にて行いました。 Python版の

    Facebookの予測ツールProphetについて発表しました - ほくそ笑む
  • A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

    素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、 意味のある差とは何かを事前に決定する サンプルサイズを事前に決定する という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。 よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。 さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

    A/Bテストと統計的検定の注意点(その1) - ほくそ笑む
  • 「異常検知と変化検知」輪読会で論文紹介しました - ほくそ笑む

    去る 7/21(木) に行われた「異常検知と変化検知」輪読会で論文紹介をさせていただきました。 タイトルは「非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出」で、資料は SlideShare に上げています。 非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出 from hoxo_m 発表で紹介した論文は下記です。 Hido+ (2011) Statistical Outlier Detection Using Direct Density Ratio Estimation 『異常検知と変化検知』「第11章 密度比推定による異常検知」では、密度比推定法として カルバック・ライブラー密度比推定法 KLIEP (Sugiyama+ 2008) 最小2乗密度比推定法 LSIF (Kanamori+ 2009) が紹介されていますが、LSIF を進化させた uLSIF という手

    「異常検知と変化検知」輪読会で論文紹介しました - ほくそ笑む
  • R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました - ほくそ笑む

    RStudio社が開発した Shiny パッケージは、R言語で簡単に Web アプリケーションを作るためのフレームワークを提供します。 Shiny この Shiny による Web アプリケーションの開発方法を学ぶには、公式のチュートリアルを読むのが一番です。 Shiny - Tutorial しかし、公式は英語なので、読むのがしんどいです。 そこで、チュートリアル全文を日語に翻訳しました。 訳文は Qiita で公開しています。このページは目次として活用していただければと思います。 Shiny チュートリアル目次 7 つのレッスンからなるこのチュートリアルは、R プログラマを Shiny 開発者へと導きます。 1 つのレッスンは 20 分ほどで終了し、各レッスンごとに新しい Shiny スキルを 1 つ学ぶことができます。 すべてのレッスンを終えたとき、あなたは Shiny アプリを構

    R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました - ほくそ笑む
  • 実践 統計モデリング入門 【1. 概要・目次】 - ほくそ笑む

    【宣伝】2016/09/14 このページに来た方へ。あなたが求めているはこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。 【宣伝終】 はじめに 統計モデリングは今後ますます重要になってくる技術です。 現在、Web 上には統計モデリングに関する様々な優良記事があります。 それらの記事は、完成したモデルをスマートに提示しているものが多いようです。 しかし、実際の統計モデリングの現場は決してスマートなものではなく、様々な泥臭い試行錯誤を行いながら地道にモデルを構築していきます。 この一連の記事では、最終的なモデルの完成形をいきなり提示するのではなく、モデル構築の手順をスッテプバイス

    実践 統計モデリング入門 【1. 概要・目次】 - ほくそ笑む
  • R で超簡単に並列処理を書けるパッケージ pforeach を作った - ほくそ笑む

    ※この記事は R Advent Calendar 2014 : ATND の 22 日目の記事です。 0. この記事の要約 R の foreach パッケージを改良して、デフォルトで並列計算するようにしたパッケージ pforeach を作りました。 pforeach - Easy to parallel processing in R これにより、R での並列計算を下記のようにシンプルに書くことができます。 library(pforeach) pforeach(i = 1:100)({ i ** 2 }) これは、従来の foreach で次のように書いたものと同じ動作をします。 library(foreach) library(doParallel) cl <- makeCluster(detectCores()) registerDoParallel(cl) foreach(i = 1

    R で超簡単に並列処理を書けるパッケージ pforeach を作った - ほくそ笑む
  • RFM 分析を簡単に実行できる R パッケージ easyRFM を作った - ほくそ笑む

    ※この記事は R Advent Calendar 2014 - Qiita の 11 日目の記事です。 はじめに RFM 分析は、マーケティングの顧客分析でよく使われる手法です。 Recency(いつ買ったか)、Frequency(何回買ったか)、Monetary(いくら使ったか)を指標として、顧客をグループ化します。 RFM 分析が何なのか、何に使えるのかは、次のサイトの記事を読めば理解できると思います。 顧客分析の手法 #RFM分析 しかし、実際のデータにこの手法を適用しようと思ったとき、困ったことになります。 どのようにランクを区切ったら良いのか分からないのです。 上記のサイトにもこう書いてあります。 ランクをどこで区切るかは重要な問題で、業種、業界、商品や分析を行なう時期や、用いるデータの期間などによって、分けかたを慎重に検討する必要があります。 このランクを区切るという重要かつ難

    RFM 分析を簡単に実行できる R パッケージ easyRFM を作った - ほくそ笑む
  • R にラムダ式を導入するパッケージ lambdaR を作った - ほくそ笑む

    ※この記事は R Advent Calendar 2014 - Qiita の 4 日目の記事です。 いくつかのプログラミング言語には、無名関数を生成する方法として、ラムダ式が用意されています。 例えば、 # Python increment = lambda x: x + 1 // Scala def increment = (x: Int) => x + 1 などです。 ラムダ式は、無名関数をダイレクトに表現することができるため、プログラムの記述が容易になり、可読性も上がります。 ところが、R にはラムダ式はありません。 このように便利なラムダ式を R に導入できないでしょうか? というわけで、作りました。 lambdaR - Novel lambda expressions in R lambdaR は、R にラムダ式を導入するためのパッケージです。 次のようにしてインストールできま

  • 可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む

    先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。 発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この発表は、みどりぼんに登場する、マルコフ連鎖モンテカルロ法(MCMC)のアルゴリズムである「メトロポリス法」と「ギブス・サンプラー」について、可視化して理解しようというお話です。 「マルコフ連鎖モンテカルロ法」というのは、字面だけ見ると難しそうですが、この発表で理解すべきポイントは、次のスライド 1枚に凝縮されています。 このことを念頭に置いて、それぞれの手法を見ていきましょう。 まず、メトロポリス法ですが、これは、 前の状態の近くの点を次の遷移先候補として選ぶ(マルコフ連鎖) そのときの確率比 r < 1 ならば確率 r で棄却する。それ

    可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む
  • 欠測データの相関係数の推定法について発表しました - ほくそ笑む

    先日行われた BUGS/stan勉強会 #3 で発表させていただきました。 タイトルは「Stan で欠測データの相関係数を推定してみた」です。 欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観測できていない不完全データを用いて推定精度を上げる方法を紹介しています。 スライドは下記にアップしています。 Stan で欠測データの相関係数を推定してみた from hoxo_m 最終的なコード全体はこちらに載せています。 Stan の勉強にあたっては、ごみ箱さん、beroberoさん、伊東さんにアドバイスを頂きました。ありがとうございます。 hoxo_mさんのバイアスの掛かったデータの相関係数の問題、よく使われる統計手法からの発展としてすごくいい例だし、片方しか観測されていないデータを使ってもあれほど改善するとは驚いた。#Tok

    欠測データの相関係数の推定法について発表しました - ほくそ笑む
  • チェビシェフの不等式について発表しました - ほくそ笑む

    先日行われた第40回R勉強会@東京(Tokyo.R)にて、「チェビシェフの不等式」というタイトルで発表させていただきました。 大数の法則の証明にも使われるチェビシェフの不等式ですが、現実問題への適用例として、実際にあった事例をデフォルメして物語形式で発表してみました。 スライドは下記にアップしています。 チェビシェフの不等式 from hoxo_m また、この発表に対する補足資料を RPubs に上げています。 http://rpubs.com/hoxo_m/19776 無味乾燥と思える数式でも、実際に使われた事例を知ると、急に親近感がわいてくることもあるかと思います。 楽しんでいただけたら幸いです。 それでは、また。 関連 第40回R勉強会@東京に参加してきた - INPUTしたらOUTPUT!

    チェビシェフの不等式について発表しました - ほくそ笑む
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
  • 1