タグ

2019年2月7日のブックマーク (2件)

  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
  • データが足りないなら増やせば良いじゃない。 - Qiita

    パンがなければケーキをべれば良いじゃない。 データ不足や不均衡なときにデータを増殖する手法をざっと調べたのでまとめます。 TLDR テーブルデータ(構造化データ)はSMOTEが便利 画像データは画像処理(左右反転、傾ける、ノイズ追加等々) テキストデータは異音同義語や類語、ルールベースで単語置換 音声データは数値配列にしてノイズを乗せたり伸ばしたり 前置き 機械学習やディープラーニングで学習するとき、充分なデータが用意されているとは限りません。 またはデータの総量は充分にあるけど、偏っている(インバランスになっている)ということも稀ではありません。 そういう場合の対策は概ね2つあると思います。 1. データを集めてくる 2. データを増やす 1.のデータを集める場合は、Webを探索してからオープンデータを集めたり社内調整したり、いろいろがんばります。 Web探索はスクレイピングをがんばる

    データが足りないなら増やせば良いじゃない。 - Qiita