タグ

qiitaとdata-setに関するnabinnoのブックマーク (3)

  • 統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita

    はじめに 統計、機械学習が流行しているので、勉強したいと考えている人が多いと思います。 が、しかし、実際に手を動かすためには、データがないと難しく勉強は困難です。 PRMLとか読んでも、実務で使えそうなイメージは湧きません。 そこで、生データをダウンロードできるリンク集を作ってみました。 見つけ次第増やしていきます。 過去の気象データ検索 by 気象庁 http://www.data.jma.go.jp/obd/stats/etrn/index.php 気象に関する情報のデータベースです。 条件を色々入れると、CSVを生成してくれます。 データ容量制限がありますが、いろいろ使えそうです。 人体寸法データベース by 産総研 https://www.dh.aist.go.jp/database/91-92/ 身体のいろんな場所の寸法に関するデータベースです。 足のサイズとか、顔の大きさとかの

    統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita
  • pandas によるデータセットの加工 (1) - Qiita

    サンプルデータの抽出 統計解析においてはデータの前処理が欠かせません。まず計算機で扱えるようデータを読み込むわけですが、大きめのデータを扱う計算処理においてはそのターンアラウンドがしばしば問題になります。このようなときに採るべき策はいくつかあります。 データのサイズを減らす ボトルネックを特定し計算量の削減をする 計算機の性能を上げる ビッグデータなどと言われて久しいですが実際には標のサイズを大きく取る必要はありません。標抽出法によって有意なサンプルを抜きだしましょう。 多くのデータ集中処理では I/O がボトルネックになります。このとき必要なデータだけを読み込むようにする、もとのデータを適切に分割して入力サイズそのものを減らす、といったことを検討するのが良いでしょう。 サンプルデータのスライスと集計 スライシング pandas でデータを扱う場合、スライシングは簡単におこなえます。

    pandas によるデータセットの加工 (1) - Qiita
  • pandas によるデータセットの加工 (2) - Qiita

    昨日は pandas でのデータセット加工について説明しましたがその続きです。 データを正規化する 実は今までの記事でもさり気なく正規化は登場してきたのですがきちんと説明していなかったと思います。 統計における 正規化 (normalize) とは、異なる基準のデータを一定の基準にしたがって変形し利用しやすくすることです。 たとえば国語が 90 点、数学が 70 点だったとしましょう。単純に数値だけを比較すると国語のほうが成績が良いことになってしまいますが、もし国語の平均点が 85 点、数学の平均点が 55 点だったら果たしてどうでしょうか?このように基準が異なるデータを比較できるようになるといったことが正規化のメリットです。 一般的には平均 0 、分散 (及び標準偏差) が 1 になるように値を変換することを指します。 これは以下の数式で算出できます。

    pandas によるデータセットの加工 (2) - Qiita
  • 1