タグ

ブックマーク / hoxo-m.hatenablog.com (6)

  • R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました - ほくそ笑む

    RStudio社が開発した Shiny パッケージは、R言語で簡単に Web アプリケーションを作るためのフレームワークを提供します。 Shiny この Shiny による Web アプリケーションの開発方法を学ぶには、公式のチュートリアルを読むのが一番です。 Shiny - Tutorial しかし、公式は英語なので、読むのがしんどいです。 そこで、チュートリアル全文を日語に翻訳しました。 訳文は Qiita で公開しています。このページは目次として活用していただければと思います。 Shiny チュートリアル目次 7 つのレッスンからなるこのチュートリアルは、R プログラマを Shiny 開発者へと導きます。 1 つのレッスンは 20 分ほどで終了し、各レッスンごとに新しい Shiny スキルを 1 つ学ぶことができます。 すべてのレッスンを終えたとき、あなたは Shiny アプリを構

    R言語でWebアプリケーションを作るためのチュートリアルを翻訳しました - ほくそ笑む
  • 可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む

    先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。 発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この発表は、みどりぼんに登場する、マルコフ連鎖モンテカルロ法(MCMC)のアルゴリズムである「メトロポリス法」と「ギブス・サンプラー」について、可視化して理解しようというお話です。 「マルコフ連鎖モンテカルロ法」というのは、字面だけ見ると難しそうですが、この発表で理解すべきポイントは、次のスライド 1枚に凝縮されています。 このことを念頭に置いて、それぞれの手法を見ていきましょう。 まず、メトロポリス法ですが、これは、 前の状態の近くの点を次の遷移先候補として選ぶ(マルコフ連鎖) そのときの確率比 r < 1 ならば確率 r で棄却する。それ

    可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む
  • データ分析のプロを目指すエンジニア必読の書 - ほくそ笑む

    福島真太朗『データ分析プロセス』を読みました。 データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行この商品を含むブログ (2件) を見る 「データ分析」とひとことで言っても、色々な人たちが色々な考え方で「データ分析」をやっていると思います。 その一大勢力として挙げられるのが「Excelで集計だけしてる人たち」です。これは特にマーケター出身の人が多いのではないでしょうか。*1 一方、最近のデータ分析界隈に増加していると思われるのが「機械学習ツールにデータを入れるだけ」の人たちです。 特にエンジニア出身の方が、上司に「データ分析が流行ってるみたいだから今日からデータ分析やって」と言われて泣きながらやっているケースが多いのではないかと。 そういう人たちは、機械学習についてある程度理解してお

    データ分析のプロを目指すエンジニア必読の書 - ほくそ笑む
  • R を終了させる最短コードがおもしろい - ほくそ笑む

    R 環境を終了させたいときは、コマンドラインに q() と打てば終了できます。q() は quit() の省略形で、このままだと Save workspace image? [y/n/c]: などと聞かれるので、それがうっとおしい人は q("no") のように打てば確認されずに終了できます。 しかし、R を終了させるために 7 文字も打つのはめんどくさいと言う人たちがいます。 そういう人たちのために、 Q と打つだけで終了できるようにするテクニックがあります。 どういうテクニックかちょっとおさらいしておきましょう。*1 Q で R を終了させるテクニック まず、コマンドラインに x <- 3.14 x と打つと [1] 3.14 と表示されますね。 ここで、2行目の x は暗黙のうちに print(x) を呼び出していることを思い出してください。 print() は内部で UseMetho

    R を終了させる最短コードがおもしろい - ほくそ笑む
  • ほくそ笑む

    Web における A/B テストでは、ランダム化単位と分析単位が異なるということがよくあります。 例えば、A か B かのランダム割付がユーザーごとに行われるのに対して、評価指標として分析したいのはページビューごとのクリック率だったりします。 この場合、ランダム化単位はユーザー、分析単位はページビューということになります。 一般に、Web の A/B テストはサンプルサイズが非常に大きいため、中心極限定理により平均値は正規分布に従うと仮定できるので、Z検定がよく使われます。 しかし、ランダム化単位と分析単位が異なると、この Z検定にまずいことが起きます。 具体的には、一人のユーザーが複数のページビューを発生させることができ、それぞれのユーザーは異なるクリック率を持つため、Z検定が仮定する独立同分布 (i.i.d.) に違反してしまいます。 データがこのような性質を持つと、A と B で評価

    ほくそ笑む
    chess-news
    chess-news 2013/11/15
    t検定から見つけた
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1