タグ

統計に関するsatojkovicのブックマーク (35)

  • 次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる

    The Top Three hottest new majors for a career in technology : Microsoft JobsBlog マイクロソフトの採用活動などを記しているブログ「Microsoft JobsBlog」に8月23日付けでポストされたエントリ「The Top Three hottest new majors for a career in technology」(テクノロジー分野でもっとも熱い、3つの専門性とは)では、長期的に見て次の3つがホットな分野だと挙げられています。 Data Mining/Machine Learning/AI/Natural Language Processing (データマイニング/機械学習人工知能/自然言語処理) Business Intelligence/Competitive Intelligence (ビジ

    次の10年、「統計分析」こそテクノロジー分野でいちばんホットな職業になる
  • マルコフ連鎖モンテカルロ法(ただし初心者向け) - ハリ・セルダンになりたくて

    実は先日、うっかりと「マルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo Method以下、MCMC)」などと書いてしまったので、「MCMCの良い教科書はないですか?」などというご質問をいただいてしまいました。 申し訳ないことに矢野の専門はMCMCではありません。MCMCを専門にしない理由は単純で、「(日には)MCMCの研究者ですでに偉い人が多すぎる」からです。矢野のような頭の悪い人間が今頃参入してもとても追いつきません。 頭が悪いのって悲しいですね_| ̄|○ Googleでは東大の大森裕浩先生が書かれた「マルコフ連鎖モンテカルロ法の最近の展開」が見つかりますが、初心者が読むのはちょっと厳しいかもしれません(元々MCMCの最新動向をまとめたサーベイ論文なので)。 http://www.e.u-tokyo.ac.jp/~omori/2002/MCMC/mcmc.p

    マルコフ連鎖モンテカルロ法(ただし初心者向け) - ハリ・セルダンになりたくて
  • サンプルプログラム(Visual C++):統計学を学ぶための数学入門

    Up サンプルプログラム(Visual C++版) 下記各項目をクリックすると該当のプログラムファイルの圧縮ファイル(*.ZIP)をダウンロードすることができます。 ダウンロードしたファイルを解凍すれば、Visual C++2008で開くことができます。 開いても表示されないときは、画面左側上部にあるソリューションエクスプローラタブをクリックして表示したいファイル名を選びダブルクリックすると表示されます。 Linux版サンプルプログラムはここをクリックして下さい。 プログラムについての解説は書「統計学を学ぶための数学入門・上」を参照して下さい。 Visual C++プログラミングについては<岡安晴「大学生のための心理学VC++プログラミング入門」勁草書房>で説明しています。 B.1 漸化式による組み合わせの計算 B.2 ネイピア数eを求めるプログラム例 B.3 変数変換y=2Arcsi

    satojkovic
    satojkovic 2010/07/26
    各種サンプルコード
  • 重相関係数を知るための基礎知識

    サーチエンジンから直接入ってきた人は、フレームで目次を示していますからこれで目次表示にするとタコ国全体が見やすいです。目次からここへは 8 章から入ります。 自由度とは何かを知りたいかたは(おまけ)へ。イラストでの説明だよ。 「共分散とは」何かを知りたければこのイラストをじっとよくみて下さいね。 標準偏差とはデータの群があるときその「ばらつき」の指標です。平均値があるようなデータ群の場合には、データxを横軸に、そのデータの出現頻度を縦軸にすると、下の図のようにベル型の正規分布をします。平均値を中心にして含まれるデータ数が68%になるときの、平均値からのxの値(差分σ)を標準偏差といいます。 正規分布は、データ群によっていろいろな形があります。単位によっても分布の形状は変わります。たとえば、同じ物をはかっても長さをcmとmmと表した場合では異なる正規分布形状になります。 データを平均値をゼロ

  • 相関係数(の式の由来)

    8 相関係数(の式の由来) 多くのテキストでは,「相関係数を次のように定めます」と述べるところから始めていますが,どうしてそのように定めるのか,いつも不思議に思っていました.そこで,今までのべた「情報」をもとにして,「なぜ,そのように決められるのか」ということにしぼって,話を進めていきたいと思います. ここで,話を 5.回帰直線(1) で学習しました 決定係数 の話に戻します.5.回帰直線(1)では, 全情報 説明できている情報 失われた情報を用いて,得られた観測値と回帰直線の評価を行なうことが可能となります.すなわち, 回帰直線によって,全情報のうちどれくらい説明することができているのか その比を計算することにより評価することが可能です.そこで,その比のことを 決定係数 R2(decision coefficient)と呼び,

  • 相関係数 - 機械学習の「朱鷺の杜Wiki」

    相関係数 (correlation coefficient)† 二つの確率変数の間の関連度合いを表す尺度 \(\rho\) で, \(-1\le\rho\le1\) を満たすように定義したものである. Web で「相関係数」を調べる人は多い. 単に相関係数と言えば,Pearsonの積率相関係数 \[\rho_P=\frac{\mathrm{E}_{X,Y}[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\mathrm{E}_X[(X-\mu_X)^2]}\sqrt{E_Y[(Y-\mu_Y)^2]}}\] を指す. ただし \(\mu_X=E_X[X], \mu_Y=E_Y[Y]\) \(Y=a X+b\) のような線形の関係があるとき,\(0<a\)なら \(\rho_P=1\), \(a<0\) なら \(\rho_P=-1\) となる. \(\rho_P\)は二つのベクトルの

  • 相関係数 - Wikipedia

    散布図とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合はYの分散が0であるため相関係数は定義されない。 相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である[1][2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4]。 たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。 相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にある

    相関係数 - Wikipedia
  • 混合ガウスモデルとEM - 人工知能に関する断創録

    今回は、9.2の混合ガウス分布のところです。混合ガウス分布はK個のガウス分布の線形重ね合わせで表されます。 ここで、π_kを混合係数と言い、k番目のガウス分布を選択する確率を表します。π_kは確率の条件を満たし、すべてのkについて足し合わせると1になります。ここら辺は、2.3.9の混合ガウス分布でも出てきました。この章では、混合ガウス分布を潜在変数zを導入して再定式化しています。zはK次元ベクトルで、K個の要素のうちどれか1つだけ1を取り、他は0、つまり1-of-K表現です。zはデータxがどのガウス分布から生成されたかを表し、下のような分布になります。 そして、式(9.12)のようにこのzを陽に用いた形でp(x)を求めてもやっぱり混合ガウス分布の式 (9.7) になります(演習9.3)。 つまり、混合ガウス分布を「潜在変数zを含む別の式」で表現できたってことですね。何でこんなことするのか不

    混合ガウスモデルとEM - 人工知能に関する断創録
  • Intelligence Architecture けんきうノート - GMM

    Gaussian Mixture Model(混合正規分布モデル)は以下のようなデータ生成モデルです。 K個のクラスがあるとする。対応して、K個の正規分布が存在する。 まず、K個からひとつランダムに選ぶ。 次に、選ばれた正規分布に従ってデータベクトル \(x_n\in {\bf R}^D\) を生成する。 これを N回繰り返して \(X=(x_1,\ldots,x_N)\) を得る。 この \(X\) が観測データとなるわけです。 一方、\(x_n\) を生成したクラスはどれかを表す変数を \(y_n\) として、\(Y=(y_1,\ldots,y_N)\) とおきます(隠れ変数)。 \(y_n\) は、普通に考えれば、単に1からKのスカラ値を持てばいい気がします。 ですが後の式変形の便宜上、ひとつの要素だけが1のK次元ベクトルである(\(y_n\in\{0,1\}^K\))とし

    satojkovic
    satojkovic 2010/05/31
    Gaussian Mixture Model
  • とつげき東北「この馬鹿を見よ!」

    とつげき東北――この馬鹿を見よ!

  • とつげき東北さんの講義を受けてきた - 駒場の猫は二次元メイドの夢を見るか?

    4月17・24日に開かれたとつげき東北氏(以下凸さん)の自主ゼミに参加してきました。 タイトルは「分野横断的な研究技術としてのプログラミング・統計学の基礎と実践」。 講義資料は凸さんのブログにpdfで置かれています。これと補足資料を読むだけでもかなり講義の内容は理解できるでしょう。 講義は2日間に分けて、90分×6コマで行われました。 参加者は50人はいそうな感じで、6コマ目のRevin氏とぷりっぷりのおしり氏の講義の時にはさらに多くの人が来ていました。東大生はむしろ少数派で、他大の学生や一般の方の参加が多かった印象があります。 【1コマ目】 ここでは、統計学とプログラミングをどうして学ぶのかについて説明が行われました。 まず始めに、通常の方法では解くのが困難ないくつかの問題を提示し、それらを実際にプログラミングの知識を用いて一瞬で解いてみせることで、統計学やプログラミングの知識を用いて容

    とつげき東北さんの講義を受けてきた - 駒場の猫は二次元メイドの夢を見るか?
  • Tetsuya Hattori; moved

    Tetsuya HATTORI 引っ越しました.クリックしてください. ブックマークとリンクの変更をお願いします.

  • 事後確率と尤度(頻度主義とベイズ主義について)

    ---------------------------------------------------------- 事後確率と尤度――系統推定における最尤法とベイズ法の最前線 ---------------------------------------------------------- 尤度(likelihood)とはある仮説(モデル)のもとで観察されたデータが生じる確率を意味しています.以下では,この尤度が「ベイズの定理」と呼ばれているもののパーツを構成していることを示します.これは,系統推定の業界で「最尤法」に代わるものとして最近用いられ始めている「ベイズ法」を理解する要になります. ------------------------ ●「ベイズの定理」の導出 ------------------------ いま,観察データDが与えられたとして,それを説明する対立仮説がHi(i

  • ハンバーガー統計学にようこそ! 平均から分散分析まで──親しみのもてる例題

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

  • http://chasen.org/~daiti-m/paper/naist-dlec2004-lmodel.pdf

  • 統計のための線形代数 in C++ (Boost uBLASの参考サイトとtipsまとめ)

    最近の僕はより大規模な実験を行うべく、これまで作ってきたtoy programをC++に移植する毎日です。 その過程でどうしてもベクトル・行列演算が必要になったので、時期標準の呼び声高いBoost内のベクトル・行列ライブラリ、uBLASを用いてみました。 今回の記事は、特に僕が必要であった演算を実現すべく、参考にしたサイト及びそれらをまとめたテンプレート関数群をご紹介します。 参考にした主なサイトは以下のとおりです。 Boost Basic Linear Algebra(家) Boost 数学関連ライブラリの使い方 yanoの日記 2で概要を掴み、1で詳細を詰め、3で必要なものを実装... がオススメです。 特に3の矢野さんの日記には大変助けられました。ほとんど全ての実装がblogを元にしているといっても過言ではありません(この場を借りて御礼申し上げます)。 先人達の知恵を集結し、まとめ

  • 母集団と標本

    母集団と標     Last modified: May 16, 2002 統計的なデータの持つ情報は,どのような場合においても,それが取り出された集団に関して解釈されなければならない。われわれが知識・情報を得たいと考えている対象の全体を 母集団 といい,母集団から抽出された一部分を 標 と呼ぶ。 全体調査が無意味であるとき,または不可能なときや,時間・費用が制限されているときには 標調査 をすることにより母集団の姿を推定することになる。 標は母集団のほんの一部分にすぎないから,標から得られる情報にもとづいて,それが抽出された母集団全体についての性質・構造・法則性を推測しようとすると,常に不確実性がつきまとうことになる。この不確実性を制御することが統計学の主題の一つである。 標抽出法 標を通して母集団の姿を正確にとらえるためには,標は母集団を代表している必要がある。そのため

    satojkovic
    satojkovic 2009/10/13
    知識・情報を得たいと考えている対象の全体 = 母集団,母集団から抽出された一部分 = 標本
  • 微分積分

    静岡理工科大学情報学部コンピュータシステム学科菅沼研究室のページです.主として,プログラミング言語( HTML,C/C++, Java, JavaScript, PHP, HTML,VB,C# ),及び,システムエンジニアとしての基礎知識(数学,オペレーションズ・リサーチやシステム工学関連の手法)を扱っています.

  • 共分散,固有値,固有ベクトル(3次元)

    のかけ算をすればよい. Javaに実装した結果は,以下のようになる. public static void covar(double x1[], double x2[], double x3[], int len, double ret[][] ){ //3次元配列用の共分散行列を求める関数 //x1[]=要素1を代入する変数. //x2[]=要素2を代入する変数. //x3[]=要素3を代入する変数. // len=要素の数. //ret[]=共分散行列を返す行列.ret[0][0]=a, ret[0][1]=b, ret[0][2]=c //ret[]=共分散行列を返す行列.ret[1][0]=d, ret[1][1]=e, ret[1][2]=f //ret[]=共分散行列を返す行列.ret[2][0]=g, ret[2][1]=h, ret[2][2]=i int i,j,k,

  • プログラミングのための線形代数 - Pr.Cov.2