[B! Statistics] [14ページ] agwのブックマーク

マハラノビス距離とユークリッド距離の違い

1. 2011.02 作成マハラノビス距離とユークリッド距離の違い車のスピードと停車するまでに必要な距離を測定した２変数の cars データセットを 100 120 用いて、データ中心からの各データポイント図1 の距離を測定する。我々が通常距離と呼んでいるものはユーク 80 リッド距離だが、相関のある多変量データを dist 60 取り扱う際にはマハラノビス距離の方が便利。 40 方法 1 標準化してユークリッド距離を測定 20 変数 dist と speed はそれぞれ尺度が違う 0 のでそのままで距離計算をすると第 1 変数 5 10 15 20 25 の影響が第 2 変数よりも大きくなる。 speed これを避けるために、まず２変数をそれぞれ標準化し(図 2)、それから二乗和の平方根をとって距離を計算する。 3 Histogram of d1 図2 2 図3 1 15

agw 2014/08/13

リンク

アングルトライ株式会社 | MTシステム概要

agw 2014/08/13

Statistics

リンク

選抜効果 | Okumura's Blog

あるところで，入試の得点は入学後の成績とほとんど相関がないが，高校の成績（内申書の評定平均）は入学後の成績とかなり相関があるという話が出た。これは選抜効果である可能性が大きい。入試の得点は選抜に使ったために相関が減り，その分，高校の成績の相関が高くなる。これは数学的には明らかだが，説明は難しい。単純化して「入学後の成績 = 入試得点 + 高校成績 + 誤差」とすると，入試得点は，選抜に使ったため，入学者については受験者全体より分散がずっと小さくなる。したがって，上記モデルで入学後の成績の分散に占める割合が減り，相関は小さくなる。逆に，高校成績に注目すれば，入試得点の分散が減るので，入学後の成績に占める分散の割合が相対的に大きくなる。

agw 2014/08/03

リンク

総合広告代理店アイクリック

あなたの想いを私たちが伝える。あなたと誰かがつながっていく。そこには共感がうまれ、双方に新しい喜びと感動がひろがっていく。そんな幸せなコミュニケーションをつくること、それが、私たちアイクリックの使命です。このシンボルマークは従業員はもちろん全ての関係者へ感謝の気持ちを込め、広告という仕事を通して伝えていかなければならない「感動・興奮・強調・驚き」を表すエクスクラメーションマークと、アイクリックの「i」を組み合わせ、人と人の繋がりをイメージしてつくられたものです。

agw 2014/05/10

最高に分かりやすい。

リンク

野球のスコアで一番多いのは何対何だと思う？ - 300億円欲しい

野球のスコアこんなツイートを見つけました. 本日は神宮で東都大学野球を観戦後、Ｈさん、Ｇさんと外苑前の居酒屋で一杯。Ｇさんから「野球のスコアで一番多いのは何対何だと思う？」とお題。Ｇさんによれば、過去のＭＬＢの試合を全て調べた人がいて、そのスコアは「３ー１」だったそうだ。続く— ふくださん (@fukudasun) 2014, 4月 22 知りませんでした. 手元にMLBのデータがあるので, 調べてみました. データの取得 http://retrosheet.orgからデータをダウンロードします. メジャーリーグの試合の, 全てのイベントに関するデータが取得できます. 下記参照. Rで野球データを取得したい - 300億円欲しいとりあえず, 1921年から2013年までのデータを取得しました. 全部で2GBくらいです. 準備は整いました. 早速調査しましょう. 2013年のスコア別試合

agw 2014/05/09

Statistics

リンク

判別分析法（大津の二値化）　画像処理ソリューション

判別分析法【discriminant analysis method】は大津の二値化とも言われ、分離度（separation metrics）という値が最大となるしきい値を求め、自動的に二値化を行う手法です。分離度はクラス間分散（between-class variance）とクラス内分散（within-class variance）との比で求める事ができ、以下の様に求める。しきい値　ｔ　で二値化したとき、しきい値よりも輝度値が小さい側（黒クラス）の画素数をω1、平均をm1、分散をσ1、輝度値が大きい側（白クラス）の画素数を画素数をω2、平均をm2、分散をσ2、画像全体の画素数をωt、平均をmt、分散をσtとしたときクラス内分散σw2はクラス間分散σb2はとしてあらわす事ができる。ここで、全分散（total variance）σtはとしてあらわす事ができることから、求める

agw 2014/05/02

リンク

欠損値があるデータの分析 | Sunny side up!

HAD11.3から，欠損値のあるデータを分析できるようになりました。この記事では，欠損値の処理と，その推定方法について簡単に書きます。ただ，この記事は数式とかそういう話はないので，詳しいことを知りたい方は村山航さんの記事(PDFが開きます)や，広大の徳岡君の資料などを参考にしてみてください。これらはとてもよくまとまっていて，わかりやすいです。欠損値の3つのタイプ欠損値が生じる要因として，大きく分けて3つが考えられています（細かく言えばもっとある）。データが，完全にランダムに欠損するデータが，測定されている値に依存して欠損する（欠損データとは無関係）データが，欠損データに依存して欠損する違いがちょっと分かりにくいですね。具体的に説明しましょう。まず，データが完全にランダムに欠損するとは，データに反応しないのが，「たまたま」ということです。データになんにも依存していなくて，ほん

agw 2014/03/30

リンク

Yuta Kashino on Twitter: "「バ回帰」を避けたい諸賢の皆様にお勧めの本がコレ："Common Errors in Statistics (and How to Avoid Them" http://t.co/s0LVIN3I0p 業務に統計学を使う人には必携といっていいと思います．"

agw 2014/03/25

リンク

母平均の検定統計学入門

限られた標本から母集団の平均を検定するには、母平均の区間推定同様、母分散が既知のときと、未知のときで分けられます。＜母分散が既知のとき＞１．まずは、仮説を立てます。

agw 2014/03/15

リンク

t分布統計学入門

＜ t 分布＞正規分布は、母平均μと母分散σ2のみで示されたわけですが、一般にこれらの値は知られていない場合が多いようです。そこで、母平均の代わりに標本平均で代用します。ここでは、この標本平均がどれほど母平均に近いかが問題となるわけです。

agw 2014/03/15

Statistics

リンク

施策の効果をどうやって測るか(1) - 仮説検定とは - About connecting the dots.

なんかの施策を打ったときに，それが実際に効果を持っていたか，というのを正しく測定するにはどうしたらいいのでしょうか．ということで今回はべたべたですが統計的仮説検定のお話です．定義的な部分が先にくるのはご容赦を... そもそものきっかけは，お仕事でχ2検定周りを復習したり，サンプルサイズの決め方を読んだりしていて，そういやそもそも検定って何だっけとかいう根本的なことについて，理解のし直しをしたりしていました．大学の学部で習ったはずなんだけど，まるですっかり理屈の部分が抜けたりしているのですね...　といったところが発端です．サンプルサイズの決め方 (統計ライブラリー) 作者: 永田靖出版社/メーカー: 朝倉書店発売日: 2003/09/01メディア: 単行本購入: 20人クリック: 277回この商品を含むブログ (15件) を見る定義的なもの統計学入門 (基礎統計学) 作者: 東京大

agw 2014/03/15

Statistics

リンク

バイオ・データ・マイニング/Rで回帰分析する - とうごろうぃき

はじめに † ここでは、『Rによるバイオインフォマティクスデータ解析』の7.17節「LASSO」を参考にして、回帰分析をします。きちんと理解するために、まずは単回帰と重回帰という2種類の線形回帰をやり、その後にLasso回帰とRidge回帰をやります。その後、多項回帰と二項回帰をやります。 ↑ 準備 † Rのインストールについては、次のページを見てください。 MacでRを使う WindowsでRを使う最初は、標準で使用できるirisデータセットを使います。 data(iris) このデータセットは、アヤメの種類（Species）をがく片の長さ（Sepal.Length）、幅（Lepal.Width）、花びらの長さ（Petal.Length）、幅（Petal.Width）によって分類する問題です。長さと幅は連続値、種類はsetosa, versicolor, virginicaのいず

agw 2014/03/03

リンク

パッケージユーザーのための機械学習(1)：決定木 - 渋谷駅前で働くデータサイエンティストのブログ

（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした（笑）。ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います

agw 2014/02/26

リンク

パッケージユーザーのための機械学習(5)：ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ

（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが（笑）、教師あり学習＆分類器系では一旦これでシリーズを〆る予定です。トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回（と次回予定の5回分まとめ）の記事を読んでもらいたいなぁと思います。今回の参考文献もピンクの薄い本です。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。はじめてのパターン認識作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行本（ソフトカバー）購入: 1人クリック: 7回この商品を含むブログ (4件) を見る他だと、例

agw 2014/02/26

リンク

回帰と相関 Regression and correlation

回帰と相関，知っているようで知らない，その本質井口豊（June 1, 2011) *このページの内容は，完全には再チェックされていませんので，計算や記述上のミスがありましたらご連絡下さい。なお，概数も≒を使わず，＝を使っています。１．はじめにインターネット上の情報は，玉石混交と言われるが，科学的説明に関しても，時折，驚くような誤解に出くわす。今回は，最小二乗法による直線回帰の「誤解」について考えたい。これは，読んで字のごとく，データ点からの二乗和が最小になる近似式（適合式），を求めるものである。ところが，この「データ点からの距離」の取り方が，“くせもの”なのである。最小二乗法は頻繁に行われる直線近似法である。EXCELなどの表計算ソフトでも容易に出来る。しかし，それがゆえに，どんな計算法か知らずに適用されてきているのも事実である。インターネット上で見つけた誤解例でも，理系人間を自

agw 2014/02/25

リンク

回帰と相関の違い＜確率・統計＜Ｗｅｂ教材＜木暮仁

最小二乗法では回帰を用いました。変数間の関係では相関を用いました。対応する変量ｘとｙの間の関係度合を表す尺度に回帰と相関があります。では、回帰と相関とは、どこが違うのでしょうか？違いのイメージｘとｙの変数があります。回帰ではｘを説明変数、ｙを被説明変数といいます。説明変数が１つの回帰を単回帰、変数が２つの相関を単相関といい、説明変数が複数のときを重回帰、変数が３つ以上のときを重相関といいます。重回帰や重相関に場合は複雑になるので、別章にまわし、ここでは単回帰と単相関について取り扱います。回帰とは、ｘが決まればｙが決まるという関係（ｘ→ｙ）で、それに対して、相関とは、ｘとｙが同等の関係（ｘ－ｙ）だという違いです。例えば、ｘを身長、ｙを体重としたとき、身長から体重を推定できないかと考える（体重から身長を推定することは考えない）のが回帰であり、方向性を考えずに、身長と体重の間に関係があつ

agw 2014/02/25

リンク

回帰分析(1)

回帰分析(1)～回帰分析の仕組みここからは，2変量(またはそれ以上)の間での関係を分析する手法について学びます．はじめに，相関について復習したあと，回帰分析の目的，その仕組みを解説した後，単回帰分析を例に分析結果の読み方を学びます．相関係数の算出 2つの変数の間に一定の関係が想像できるとき，これを具体的な数値で表現してみます．2つのデータの間の関係の強さを測る統計量を相関係数と呼んでいます．2変数データに関連性がある時（例えば，片方が大きいと，もう片方も大きくなるなど），その2つの変数には相関があるといいます． ■相関係数の算出法：Excelでは，「CORREL」という関数を用います． CORREL（変数1のデータ範囲，変数2のデータ範囲）変数1と2の順番は関係ありません．

agw 2014/02/25

リンク

回帰分析とは何ですか - 埼玉県ホームページ

agw 2014/02/25

Statistics

リンク

株式会社ALBERT（レコメンドエンジン）

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ