タグ

統計学に関するTensorのブックマーク (10)

  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • ヤバい統計学: カイザー・ファング, Kaiser Fung, 矢羽野 薫: 本

    ヤバい統計学: カイザー・ファング, Kaiser Fung, 矢羽野 薫: 本
  • 第7回 代表的な離散型確率分布 | gihyo.jp

    今回は、前回導入したNumpy、そしてグラフを描画するmatplotlibを使って、いくつかの代表的な分布を紹介していきます。 第5回「「よく使う分布」はどうしてよく使う?」の項でも代表的な分布が紹介されていました。そこでは、“⁠この状況(モデル)では、この分布を使う⁠”というパターンを想定する、それが“⁠よく使う分布⁠”がいくつも存在する理由と言及されていましたが、どのような状況でどのような分布を使えばいいのでしょうか? 実際、どのような状況のときに、どのような分布を使うと説明しやすいかを考えながら、みていきましょう。 matplotlibのインストール matplotlibはpythonとNumpyのための高機能なグラフ描画ライブラリです。今後もグラフを描画することがあるかと思いますので、ここでインストールしておきましょう。 公式サイトのダウンロードから各OS向けのパッケージを入手して

    第7回 代表的な離散型確率分布 | gihyo.jp
  • 第6回 Numpyの導入 | gihyo.jp

    今回は第3回の冒頭で紹介した、Numpyの導入方法と簡単な使い方について説明します。次回で様々な分布を扱うためにNumpyの準備をしておきましょう。 Numpyの導入 Numpyはオープンソースの拡張モジュールで行列や多次元配列と、それらを操作するための数学関数ライブラリを提供しています。Numpyの内部はC言語で実装されているため、普通にPythonで実装した時と比較するとはるかに高速に実行することが可能です。 ここではインストールの仕方とNumpyの簡単な実行例を確認しておきましょう。 インストール WindowsMacOSXのPCにNumpyをインストールする場合は、NumpyのサイトのDownloadのページの上の方にあるNumPyのProjectからインストール先のマシンのOSに対応したファイルをダウンロードして実行してください。 しかし、MacOSXにデフォルトでバインドされ

    第6回 Numpyの導入 | gihyo.jp
  • 第5回 正規分布[後編] | gihyo.jp

    統計的機械学習では解きたい問題にあわせて様々な分布を扱いますが、中でももっとも重要なのは、今回紹介する正規分布です。 まずはウォーミングアップ代わりに、前回のおさらいです。前回は、確率変数の値を実数のような「連続な数」で表す「連続確率」について説明しました。 連続確率は、サイコロの目ような「離散確率」とは異なり、「⁠確率密度関数」というものを導入し、「⁠確率密度関数 f(x) の積分値=面積=確率」として定義します。確率を「点」に対して考えるといろいろと都合が悪いので、「⁠範囲」に対して考えるのでしたね。 分布が確率であるためには「足して1になる」などの重要な条件がありましたが、連続確率にも同様に「重要な2条件」があります。 確率密度関数 f(x) の値は常に0以上 「取り得る値の全範囲」にわたって、確率密度関数 f(x) を積分すると1になる。つまり p(全範囲)=1 となる 重要なポイ

    第5回 正規分布[後編] | gihyo.jp
  • 第8回 線形回帰[前編] | gihyo.jp

    機械学習はじめよう」というタイトルの連載なのですが、実は今まで機械学習そのものの話がほとんどありませんでした……。今回からようやく機械学習がはじまります。 連載の第1回では、機械学習とは「解決したい問題」を数値化する「モデル」と、モデルのパラメータをデータから決める「学習」からなることを紹介しました。しかし、これだけ聞いて「なるほど、わかった」という人はまずいないでしょう。やはりもう少し具体的な説明が欲しいところですね。 そこで今回は、数ある機械学習の中でもっとも歴史のある手法を紹介します。他の新しい手法に比べてもずっとシンプルですが、そこにはちゃんと機械学習のエッセンスが詰まっています。そこから機械学習というものをより具体的に理解できるはずです。 2つの変数の関係を見つけよう まずは例題として、2つの変数間の関係を調べてみましょう。「⁠2つの変数」には、「⁠気温と湿度」のようにいかにも

    第8回 線形回帰[前編] | gihyo.jp
  • 第9回 線形回帰[後編] | gihyo.jp

    前回の前編では「最小二乗法」を紹介する中で、機械学習は数多くのことを仮定して、その中で一番良い答えを見つけるものだということを見てもらいました。 特に「最小二乗法」でデータ点から直線を推定する場合、次の3つのことを仮定していたことを学びました。 変数間の関係を関数で表す 関数のモデルは直線(1次式)を考える パラメータを選ぶ指標として二乗誤差を用いる 今回はこれらの仮定を振り返りながら、一般化された、より柔軟な機械学習の手法を紹介しましょう。 戻らないけど「回帰」 先ほどの仮定の1番目、「⁠変数間の関係を関数で表す」ことを機械学習では「回帰」と呼びます。つまり機械学習の世界で「回帰問題を解く」といった場合は、この仮定をしていることになります。 「回帰」という言葉の由来 「どうして関数を求めることを『回帰』と呼ぶの? 何か戻るの?」と思うかもしれません。この名前は、もともと「平均回帰」という

    第9回 線形回帰[後編] | gihyo.jp
  • 第4回 正規分布[前編] | gihyo.jp

    今回と次回では前後編に分けて、統計においてもっともよく使われる確率分布である「正規分布」のお話をします。 第2回・第3回の復習 最初に、前回までのおさらいを簡単にしておきましょう。 まず確率を定義するものとして、確率変数 X と確率分布 p(X) を紹介しました。これが「確率」であるためには、以下の2つの重要な条件を満たしている必要がありました。 確率の値は0以上1以下 すべての取り得る値の確率の合計は1 これらの条件は、今後機械学習を学んでいく上で、常に意識しておかないといけません。今回も使いますよ。 それから、確率変数が複数ある場合の「同時確率」「⁠条件付き確率」「⁠周辺確率⁠」⁠、そして「事後確率」を導入し、「⁠確率の加法定理と乗法定理」という2つの定理と、「⁠ベイズの公式」を導きました。加法定理と乗法定理については、今回も使いますのでその時に確認しましょう。 最後に、「⁠条件付き独

    第4回 正規分布[前編] | gihyo.jp
  • 第3回 ベイジアンフィルタを実装してみよう | gihyo.jp

    さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

    第3回 ベイジアンフィルタを実装してみよう | gihyo.jp
  • 第2回 確率の初歩 | gihyo.jp

    今回は、機械学習で使う「確率」のお話です。 確率は、統計的な機械学習のもっとも重要な基礎知識です。とはいえ、確率についてゼロから説明するというのは紙数的にも厳しいため、高校の確率を少し憶えているくらい(期待値や標準偏差など)を前提とし、「⁠高校の確率」と「機械学習の確率」の質的な相違点について、少し丁寧に見ていく、という形で進めていきます。 機械学習と確率 最初に、機械学習にとって確率はどういう役割なのかを確認しておきましょう。 実のところ、機械学習に確率が必須というわけではありません。ニューラルネットワークやサポートベクターマシンなどの有名な手法も「確率を用いない機械学習」ですし、その他にも数多くの手法があります。しかし、「⁠確率を用いない機械学習」の多くは、「⁠結果のランキングを作りづらい(評価値の大小に意味がない⁠)⁠」⁠「⁠条件が異なる場合の結果を比較できない」などの欠点がありま

    第2回 確率の初歩 | gihyo.jp
  • 1