kidotakaのブックマーク / 2019年2月7日

kidotaka id:kidotaka

2019年2月7日のブックマーク (2件)

pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments
概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan
kidotaka 2019/02/07
pandas

Python

大容量
リンク
データが足りないなら増やせば良いじゃない。 - Qiita
パンがなければケーキを食べれば良いじゃない。データ不足や不均衡なときにデータを増殖する手法をざっと調べたのでまとめます。 TLDR テーブルデータ（構造化データ）はSMOTEが便利画像データは画像処理（左右反転、傾ける、ノイズ追加等々）テキストデータは異音同義語や類語、ルールベースで単語置換音声データは数値配列にしてノイズを乗せたり伸ばしたり前置き機械学習やディープラーニングで学習するとき、充分なデータが用意されているとは限りません。またはデータの総量は充分にあるけど、偏っている（インバランスになっている）ということも稀ではありません。そういう場合の対策は概ね2つあると思います。 1. データを集めてくる 2. データを増やす 1.のデータを集める場合は、Webを探索してからオープンデータを集めたり社内調整したり、いろいろがんばります。 Web探索はスクレイピングをがんばる
kidotaka 2019/02/07
AI

機械学習

不均衡データ

SMOTE

Augmetation
リンク
- 2019年2月9日
- 2019年2月7日
- 2019年2月6日