You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
そういえば,昨年に読んだ本についてまとめてなかったなと気がついたので,もう1月も終わりに近づいてはいますが,まとめてみました.この1年間で,お仕事はHadoop基盤の開発+運用メインから,分析メインに移り,さらにはマネージャーになる形で動いているので,割と読む本の質も変わってきた感じがします. そんなわけで,カテゴリ毎に読んで良かった順番に並べていきます.カテゴリは以下の3つにわけました.最近はデータビジネスの比重がどんどん増えてきる感じです.自分の備忘録的な物が第一ですが,何をしているかを他の人にシェアしましょうというのもあります.何かしら参考になることがあれば幸いです. データビジネス データ分析 ソフトウェア開発 データビジネス 失敗の本質 失敗の本質―日本軍の組織論的研究 (中公文庫) 作者: 戸部良一,寺本義也,鎌田伸一,杉之尾孝生,村井友秀,野中郁次郎出版社/メーカー: 中央公
多変数間の相関に基づくものであり、多変量解析に用いられる。新たな標本につき、類似性によって既知の標本との関係を明らかにするのに有用である。データの相関を考慮し、また尺度水準によらないという点で、ユークリッド空間で定義される普通のユークリッド距離とは異なる。 ある集団内の点が多変数ベクトル で表されるとき、その集団の変数ごとの平均値を縦ベクトルで と表し、集団の共分散行列(各変数間の共分散を配列した行列)を とすれば、ある点 からの集団へのマハラノビス距離は、以下のように定義される: 平方根の内側は、縦ベクトルの転置と行列と縦ベクトルの積であり、スカラー量(正値二次形式)で正である。 マハラノビス距離はまた、共分散行列が で同じ確率分布に従う2つの確率変数ベクトル、 と の間の隔たりの指標としても定義できる: 共分散行列が対角行列であれば(相異なる変数に相関がないということ)、マハラノビス距
判別関数には以下の物などがある。 線形判別関数[注釈 6] 超平面・直線による判別。線形判別分析は等分散性が必要。 二次判別関数[注釈 7] 楕円など二次関数による判別。二次判別分析は等分散性が不要。 非線形判別関数[注釈 8] 超曲面・曲線などの非線形判別関数。 線形判別分析は、以下の前提条件が成立する必要がある。 各グループは多変量正規分布[注釈 9]している 全てのグループが同じ共分散行列を持つ(等分散性) その上で、マハラノビス汎距離[注釈 10]が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。 各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "層化抽出法" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年12月) 層化抽出法(そうかちゅうしゅつほう、英: stratified sampling)とは、統計学における母集団からの標本調査の手法のひとつ。 概要[編集] 部分母集団が互いに大きく異なるとき、各部分母集団(層)毎にサンプルを抽出することに意味がある。層化(Stratification)とは、母集団を相対的に同質なグループに分けるプロセスであり、サンプリングの前に行われる。層は相互排他的である。すなわち母集団の要素はいずれか1つの層にのみ属する。層は集合的網羅的で
『SPSSによる多変量解析』 サンプルデータ http://shakaichousa.net/mua 分析実習用資料 教育研究目的ならば誰でも自由にお使いください 村瀬洋一・高田洋・廣瀬毅士編『SPSSによる多変量解析』オーム社(2007年12月発行) で用いた各種サンプルデータを掲示しています。 主に用いたのは、都道府県別データと、仙北調査データです。ご自由にお使いください。 練習用に人数を減らしたデータがあるので、研究用に大きなデータ用いたい時は個別にご連絡ください。 email muraseyo ○gmail.com 『SPSSによる多変量解析』目次 はじめに サンプルデータについて 第1章 統計分析の目的とは 村瀬洋一 第2章 SPSSの基本操作 神林博史 第3章 統計分析の基礎 神林博史 第4章 クロス集計、独立性
javascriptで歪度と尖度を求めるコード サイトを参考に不偏分散から歪度と尖度を下記のコードで求めることが出来たのですが、 <!DOCTYPE html> <html lang="ja"> <head> <meta charset=utf-8 > <title>unbiased_Variance</title> </head> <body> <script> const arr = [70,71,70,74,75,73,72] // 平均値を計算 let sum = 0; arr.forEach((x, i) => sum += x) const ave = sum / arr.length; // 分散を計算 let dist = 0; arr.forEach((x, i) => dist += (x - ave) ** 2) const unbiasedVariance = di
なんらかの仮説をたて、母集団を定義して標本を抽出し、アンケート調査や測定調査によりデータを集め、それらを統計ソフトに入力して、統計処理を行います。この解析結果は、分析者によって吟味考察されて、レポートや論文などにまとめられます。 その際、分析の結果を記述統計量や推測統計にもとづく結果などを提示することになりますが、分析結果の要約を行う場合に、標準偏差(SD)と標準誤差(SE)を利用する場合があります。 標準偏差(Standard Deviation)は、平均値に対する観測データの散らばりをあらわす記述統計量で、SDと省略して表現されます。変数が正規分布にしたがう場合は、平均値から1×標準偏差の範囲内に、約68%の観測データが含まれることを意味します(2×標準偏差で考えると約95%が含まれます)。 標準誤差(Standard Error)は、標本の散らばりを表す記述統計量で、SEと省略して表
勉強したことメモ。数式を使わずに書く。 また、行間をスキップせずに、多少くどいかもしれないくらいにきっちり順を追って説明を書いたので長いけどわかりやすくなっているはず。 第一回はベイズの手前まで、最尤法のあたりまでの話をする。 推定量 データを表す確率変数があってその密度関数は何らかのパラメータであらわされているとする。観測したデータから合理的にパラメータを決定するタスクのことを推定という。 推定を世界で最初にガッチリ研究したのはフィッシャーという人で、彼は推定方法の良しあしを判断する基準として、(A)不偏性、(B)有効性、(C)一致性、(D)漸近正規性、(E)十分性、などを考えた。 データからパラメータを推定する手続きは、データの関数として表せる。そういう関数を推定関数、そうやって計算した値を推定量と呼ぶ。 観測されうるデータは確率変数なので、推定量も確率変数となる。 推定量が確率変数だ
HAD11.3から,欠損値のあるデータを分析できるようになりました。 この記事では,欠損値の処理と,その推定方法について簡単に書きます。ただ,この記事は数式とかそういう話はないので,詳しいことを知りたい方は村山航さんの記事(PDFが開きます)や,広大の徳岡君の資料などを参考にしてみてください。これらはとてもよくまとまっていて,わかりやすいです。 欠損値の3つのタイプ 欠損値が生じる要因として,大きく分けて3つが考えられています(細かく言えばもっとある)。 データが,完全にランダムに欠損する データが,測定されている値に依存して欠損する(欠損データとは無関係) データが,欠損データに依存して欠損する 違いがちょっと分かりにくいですね。具体的に説明しましょう。 まず,データが完全にランダムに欠損するとは,データに反応しないのが,「たまたま」ということです。データになんにも依存していなくて,ほん
機械学習とは、コンピュータに学習能力を持たせるための方法論を研究する学問の名称であり、もともとは人工知能分野の一部として研究されていた。その後、機械学習は統計学と密接な関わりを持つようになり、「統計的学習」として独自の発展の道を歩み始めた。そして、1990年代から現在に至るまでの計算機やインターネットの爆発的な普及と相まって統計的学習の技術は目覚ましい発展を遂げ、いまや情報検索、オンラインショッピングなど、われわれの日常生活とは切り離すことのできない情報通信技術の根幹を支える重要な要素技術の一つとなった。 本書は、このような発展著しい統計的学習分野の世界的に著名な教科書である“The Elements of Statistical Learning” の全訳である。回帰や分類などの教師あり学習の入門的な話題から、ニューラルネットワーク、サポートベクトルマシンなどのより洗練された学習器、ブー
分析レポート 統計ヘッドライン - 統計局月次レポート -令和6年10月15日更新 令和6年10月(統計ヘッドライン No.176) 統計Today - 統計をめぐる新しい動きやメッセージ -令和6年9月25日更新 我が国の共同住宅の移り変わり~住宅・土地統計調査の結果から~(統計Today No.202)(PDF:1,254KB) 統計トピックス - 「国民の祝日」や季節にちなんだ統計データ -令和6年9月15日更新 統計トピックスNo.142 統計からみた我が国の高齢者-「敬老の日」にちなんで- 労働力調査ミニトピックス - 労働力調査結果に関する分析レポート - 家計ミニトピックス - 家計調査結果に関する分析レポート - 小売ミニトピックス - 小売物価統計調査結果に関する分析レポート - 統計を学ぶ ・児童・生徒向け学習サイト ・先生向け学習サイト (授業モデル・補助教材等) ・
2. 自己紹介 • ところてん@Drecom – 高機能雑用 • R&D&火消し&データ分析&企画 • 最近、インフラ業務が外れた – 定額働きたい放題プラン、意識の高い社 畜 – Pythonista – awkかわいいよawk – Rubyは読めるけど書けない • 注)DrecomはRailsの会社です 2 3. 自己紹介 • 学生時代はセキュリティ屋 – 電子透かしの実装 – 認知心理を集合知でエミュレーション、フィッシン グ検知 – NNでPlaceEngineのクローンを書いたり • 前職、某電話屋さんの研究所 – マルウェアの逆アセンブル、ハニーポット – QEMUをいじり倒す – 某検索エンジンのクローラ – 某OSSの分散機械学習エンジンのアプリ – 表に出せなかった仕事 • GA+コードカバレッジ+Fuzzing • GPで数式解いてみたり 3
1.2.5 曲線フィッティング再訪 1.2.6 ベイズ曲線フィッティング のところを実装してみます。前回は、最小二乗法で曲線フィッティングをしたけど、ベイズ的な方法で解こうって話のようです。この2つの節では、 最尤推定 最大事後確率(MAP)推定 ベイズ推定 という3つのパラメータ推定方法が曲線フィッティングという具体例で説明されてます。他の教科書では抽象的に定式化されていて違いがよくわからなかったけど、この章では曲線フィッティングという具体例に基づいて説明されているのでわかりやすいと感じました。 最尤推定 まず、最尤推定のプログラムです。実は、最尤推定で対数尤度(1.62)を最大化することは、最小二乗法の二乗和誤差関数E(w)の最小化と等価なのでwの求め方は最小二乗法(2010/3/27)とまったく同じです。 最尤推定では、目標値tの予測分布を求めるためもう1個予測分布の精度パラメータ(
ベイズ推定って、最近はやってきてますね。僕も流行りにおいて行かれないように勉強しています。 理論的な話や数学的な話はいろいろWebや本をあされば出てきますが、実用面とか解釈面について言及しているものは少ないですね。 今回は清水の個人的な意見として、ベイズがどういう風に使えそうか書いてみます。数学的な話はなしで。よくわからないので。 興味ある人は続きをどうぞ。 2016/2/1追記:ベイズ統計について,入門的な資料を作りました。心理学者のためのベイズ統計入門もあわせてどうぞ。 ベイズ推定法の前に、従来法の代表として最尤推定法について触れておきます。 その方法とベイズがどう違うのかについて、そのあと述べます。 最尤推定法 最尤法ともいわれますが、基本的な発想は、モデルとデータの関係を次のように考えます。 真のモデルというのがあって、我々はそのモデルから発生したデータを手に入れている。真値は一つ
はじめに 統計のできるまで データの探し方(初級編) グラフの作り方(初級編) 特徴を捉える(初級編) 統計クイズ王!
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く