日本全国の20代男性の平均身長を知りたい場合、何百万といる20代男性全員のデータを集めるのは、時間とコストがかかりすぎてしまうので現実的ではありません。 代わりに使われているのが、無作為に選んだ数百人のデータを集めて「その数百人の20代男性の平均身長 \(\overline{X}\)」を「日本全国の20代男性の平均身長 \(μ\) の推定値」として利用する方法です。 ただ、この方法には1つ懸念材料があります。 それは、「たまたま身長の高い人ばかりを調査してしまったら、真の平均から大きく離れた統計結果になってくるのではないか?」ということ。 このような不安を抱えたままでは、せっかく得られた統計結果をどのくらい信頼していいか分かりません。 そこで重要になってくるのが、「真の平均からどのくらい誤差のある統計結果になる確率がどのくらいあるのか」を知ることです。 例えば「無作為抽出によって得られる平
こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある
現代はビッグデータの時代と言われて久しいですが、「データが大きい」と一口に言っても、2種類の大きさがあります。データの次元とサンプルサイズ(N数)です。例えば、「全人類の身長と体重のデータ」なら「次元が小さいけどNが大きいデータ(次元は2、N=70億)」ですし、「10人分のゲノム配列データ」なら「次元が大きいけどNが小さい(次元は60億、N=10)」と言えるでしょう。 サンプルサイズがデータの次元より小さいというのは、一般的にデータが不足している状況であり、あまり好ましくありません。たとえば変数の間にある関係を捉えることが難しくなります(回帰における劣決定問題)。 しかし、多次元・多変数のデータにおいて、すべての変数が意味を持つということも稀です。幾つかの変数は単に「意味を持たないただのノイズ」だったりします。ゲノムの例でいうと、ヒトゲノムのおよそ97%は無意味なジャンクDNAであると言わ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く