[B! Programming][Statistics][deferred] agwのブックマーク

agw id:agw

ProgrammingとStatisticsとdeferredに関するagwのブックマーク (22)

piqcy on Twitter: "A/Bテストのサンプルサイズをどう決めるか?を解説した記事。全3編にわかれていて、後半ほど技術的な解説となっている。Notebookによる実装もある。 https://t.co/fhP7Ol6sje"
agw 2020/01/18
deferred

Statistics

Programming
リンク
蟻本シリーズ 2 ランダムウォーク - StatModeling Memorandum
今回は以下のランダムウォークの問題を考えます。 I×Jの大きさのグリッドがあります。(1,1)からスタートして、1ターンに上下左右4マスのうち移動できる方向にそれぞれ確率p1,p2,p3,p4で移動します。いくつかのマスには石が置いてあり、通行不可能になっています。(I,J)にはじめて辿り着くまでにかかるターン数の期待値を求めなさい。ただし、(1,1)から(I,J)に移動するパスが少なくとも1つは存在すると仮定します。例：I = 3, J = 10 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1 0 1 1 1 0 1 1 1 0 [2,] 1 0 1 0 1 0 1 0 1 0 [3,] 1 1 1 0 1 1 1 0 1 1 0が石があるマスで、1が移動できるマスです。以降ではこのグリッドを「グリッドA」と呼びます。
agw 2016/07/16
deferred

Algorithm

Statistics

Programming
リンク
Rで線形単回帰分析 - matsuou1の日記
次回のTokyo.Rの開催が近づいてきたので、前回の復習を兼ねてRで回帰分析をやってみます。今回は最も単純な線形単回帰分析を行います。回帰分析の流れ回帰式を求める意義があるか検討する（説明変数と目的変数のグラフを作成する等）回帰式を求める回帰式の精度を確認する回帰係数の検定を行う信頼区間と予測区間を求める回帰式を求める意義があるか検討無相関なデータに対しても、数学的には回帰式が求められるため、検討しておくことは重要です。データはマンガでわかる統計学回帰分析編のデータを使用してみます。ある喫茶店のアイスティーの売り上げとその日の最高気温についてのデータです。 > norns temperture icetea 8/22 29 77 8/23 28 62 8/24 34 93 8/25 31 84 8/26 25 59 8/27 29 64 8/28 32 80 8/2
agw 2016/01/22
deferred

R

Statistics

Programming
リンク
Top 77 R posts for 2014 (+R jobs) | R-bloggers
agw 2015/01/14
deferred

R

Statistics

Programming
リンク
統計屋のためのAWK入門 - あんちべ！
はじめに本稿はAWKという言語を用いて、ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。特にデータの抽出に関して恐るべき簡易さを提供します。具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけでその文字列を含む行を抽出できるのです。大変簡単ですね！また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。複雑な処理をする場合はPythonや
agw 2014/09/16
deferred

Statistics

Shell

Programming
リンク
パッケージユーザーのための機械学習(1)：決定木 - 渋谷駅前で働くデータサイエンティストのブログ
（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした（笑）。ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います
agw 2014/02/26
deferred

Clustering

R

Estimate

Statistics

Programming
リンク
パッケージユーザーのための機械学習(5)：ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ
（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが（笑）、教師あり学習＆分類器系では一旦これでシリーズを〆る予定です。トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回（と次回予定の5回分まとめ）の記事を読んでもらいたいなぁと思います。今回の参考文献もピンクの薄い本です。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。はじめてのパターン認識作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行本（ソフトカバー）購入: 1人クリック: 7回この商品を含むブログ (4件) を見る他だと、例
agw 2014/02/26
deferred

RF

Estimate

Statistics

Programming
リンク
統計グラフの色
[TODO] R 4.0.0 以降の色についてはそのうち書きます。とりあえず palette() のヘルプをご覧ください。palette("Okabe-Ito") とするとsafe colorsになります。→ A New palette() for R，Color Universal Design，Essentials of color in R。あと Colorspace 2.0 とその JSS paper。はじめに統計グラフに色を付けることは広く行われています。しかし，色は万人に共通のものではありません。日本人男性の5%，白人男性の8%は，RGB（赤緑青）のうち赤と緑の区別がうまくできません。その内訳は1:3で赤の感受性がないP型（1型，protanopia）と緑の感受性がないD型（2型，deuteranopia）に分かれます。青を感じない人や，RGBのうち2色以上を感じない人もい
agw 2014/01/11
[

deferred

Statistics

R

Programming
リンク
*IRU on Twitter: "簡潔にまとまってて良い : 統計のための線形代数～基本的な定理・性質から発展的なものまで～ http://t.co/hkRFZXDxs9"
agw 2013/12/20
deferred

Statistics

Programming
リンク
confidence - 信頼区間に関する18種類の説明
統計的推測における信頼区間は，どのような初等統計学の教科書にも説明されているにもかかわらず，議論の多い問題でもある．いくつかの参考書の記述を引用してみよう．実務教育研究所(1994)「現代統計実務講座Ⅰ」p．266 このとき95％あるいは99％という確率を信頼率（信頼度ともいう）とよぶ．この信頼率は何をあらわしているのだろうか．真の値（母数）ｐは，この区間に入っているかいないかのいずれかである．したがって，ただ一つの標本から求めた信頼区間だけを考えるときには，95％や99％という確率は出てこない．このような無作為抽出を繰り返し行ない，そのたびに，前と同じ方式で信頼区間をつくるとすれば，推定値p^が変わることによって，その信頼区間の中点も，また，区間の幅も変わる．このような操作を無限に繰り返して無数の信頼区間を得るとすれば，そのうち真の値ｐを含むものの割合を示すのがこの信頼率である．東京
agw 2013/11/05
deferred

Statistics

Programming
リンク
主成分分析が簡単にできるサイトを作った - ほくそ笑む
あけましておめでとうございます。本年もよろしくお願いいたします。主成分分析さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。主成分分析は統計言語 R で簡単にできます。例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *
agw 2012/01/10
deferred

Statistics

Programming
リンク
統計解析のための専用言語R（R言語）とは - builder by ZDNet Japan
「R（またはR言語とも呼ぶ）」は、オープンソースの統計解析向けのプログラミング言語とその開発実行環境である。現在はR Development Core Teamによって開発およびメンテナンスが進められており、GPLにもとづいて無料で利用することができる。LinuxやFreeBSDをはじめとするUNIX系OSやMac OS、Windowsなど、複数のOSでの開発・実行に対応している。 Rは利用目的を統計解析に特化した言語であり、データを効率的に操作・保管するための仕組みや、配列や行列の演算をサポートした演算子のセット、結果を可視化するためのグラフ作成機能などを備えている。プログラミング言語としては条件分岐やループ処理、ユーザー定義の再帰的関数、テキスト形式のデータ入出力などといった基本的な機能を備えているほか、オブジェクト指向の手法も取り入れている。最大の強みは、多くの標準的な統計手法を標
agw 2011/12/01
deferred

R

Statistics

Programming
リンク
Rを使えるようになるための10のこと - Issei’s Analysis ～おとうさんの解析日記～
Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。・姫路市役所での事例これまでSASは使ってきたけどRは全く使ったことがない！JAVAとかC++とかガリガリ書けるけどRはよく分からない！という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R本体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる（どっちでもいいw） Rjpwiki 日本語で書かれている、これまでのRに関する資料の集大成データの加工技、
agw 2011/09/19
]

deferred

R

Statistics

Programming
リンク
確率・統計 (5) 正規分布
「正規分布(Normal Distribution)」は別名を「ガウス分布(Gaussian Distribution)」といい、ガウスが論文の中で、「最小二乗法」の正確さが正規分布によって説明できることを示したことからこの名が付けられています。この分布は、統計学において最も基本となる分布の一つであり、またその応用範囲も非常に広いことから最もよく知られた確率分布でもあります。この章では、正規分布とその性質について紹介したいと思います。
agw 2011/06/22
各分布に詳しい。また、逆関数の図示に詳しい。

deferred

Probability

Statistics

Random

Programming
リンク
本の虫: 確率分布の使い方
C++0xのstd::randomには、様々な分布クラスが存在する。一体どうやって使い分ければいいのか。ここでは、ゲームにたとえて考えてみる。もっとも簡単な分布は、一様分布（Uniform distributions）である。これは、a ≦ i ≦ b, の範囲の値iを、それぞれ等しい確率で返す分布である。ゲームでいえば、サイコロやルーレットなどの実装に使えるだろう。 // 六面サイコロの実装 int main() { std::mt19937 rng ; // 一様分布 // 0から5までの数字を等しい確率で返す分布 std::uniform_int_distribution<> dice(0, 5) ; int a[6] = { } ; // 六面サイコロの出た目の回数を記録する配列 // 600回サイコロを振る for ( int i = 0 ; i != 600 ; ++i )
agw 2011/03/16
deferred

Probability

Statistics

Mathematics

C++

Programming
リンク
Apache の mod_proxy_balancer のスケジューリングアルゴリズム - KoshigoeBLOG
まじめに調べた事がないと気づかされたので、ドキュメントを頼ってお勉強。 mod_proxy_balancer - Apache HTTP サーバ mod_proxy - Apache HTTP サーバまず、mod_proxy_balancer では、２種類のアルゴリズムを選択できる。リクエスト回数ベースの Request Counting と、トラフィック量ベースの Weighted Traffic Counting の２種類。設定は、lbmethod で行う。 Request Counting Request Counting は、lbmethod=byrequests とすると有効になる。このスケジューリングアルゴリズムを左右するパラメータは、lbfactor と lbstatus の２つ。設定パラメータ lbfactor は、ワーカーに割り当てる仕事量を意味する(クオータ)。lb
agw 2009/11/30
deferred

Algorithm

Programming

Statistics

Apache
リンク
ポアソン分布 - Wikipedia
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）出典検索?: "ポアソン分布" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2016年10月)
agw 2009/10/31
deferred

Mathematics

Probability

Statistics

Programming
リンク
統計的に正しいランキングを行う方法 - Hello, world! - s21g
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ポジティブ／ネガティブ投票による正しいランキング方法が以下の記事で紹介されています。 How Not To Sort By Average Rating この計算方法では、投票数が少ない場合には分散が大きく不正確な評価で、投票数が多くなるにつれて分散が小さく正確な評価が得られているという事を考慮しています。以下数式これはScoreの信頼区間を表しています。この信頼区間の下界をランキングのスコアにすれば良い事になります。ここで、は、です。全体に占めるポジティブ投票数の割合ですね。は標準正規分布上の信頼区間の有意確率です。さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか
agw 2009/05/13
deferred

Statistics

Probability

Programming
リンク
The Danger of Naïveté
07 Dec 2007 The Danger of Naïveté In my previous post on shuffling, I glossed over something very important. The very first thing that came to mind for a shuffle algorithm is this: for (int i = 0; i < cards.Length; i++) { int n = rand.Next(cards.Length); Swap(ref cards[i], ref cards[n]); } It's a nice, simple solution to the shuffling probl em: Loop through each card in the deck. Swap the current c
agw 2008/12/13
deferred

Algorithm

Programming
リンク
An Intuitive Explanation of Bayesian Reasoning
An Intuitive Explanation of Bayesian Reasoning Bayes' Theorem for the curious and bewildered; an excruciatingly gentle introduction. By Eliezer Yudkowsky Your friends and colleagues are talking about something called "Bayes' Theorem" or "Bayes' Rule", or something called Bayesian reasoning. They sound really enthusiastic about it, too, so you google and find a webpage about Bayes' Theorem an
agw 2007/12/27
deferred

Mathematics

Statistics

Analysis

Programming
リンク
1 2 次のページ