タグ

ブックマーク / aotamasaki.hatenablog.com (2)

  • メモリに乗り切れないデータをkerasで学習する - 学習する天然ニューラルネット

    はじめに 何を使うか 方法1 方法2 両者の違い(私感) やることの概要 データの説明 モデルの構築(飛ばしてOK) HDDからバッチを読み出す 訓練 結果 まとめ 追記 はじめに こんにちは。何が起きたかから言うと、DeepLearningしようとしたらデータが270GB近くあってメモリに乗らなかった。そこで、練習がてら、batchごとにHDDからデータを読み出して、batch学習するコードを書いた。 kerasやpythonをある程度知っている前提で書き進めていく。 何を使うか 公式ドキュメントで検索すると"メモリに載らない大きさのデータを扱うには?" FAQ - Keras Documentation とある。これによると方法は2つあるらしい。 方法1 model.train_on_batch(x, y)を使う。 このブログではこちらを試した。 方法2 model.fit_gener

    メモリに乗り切れないデータをkerasで学習する - 学習する天然ニューラルネット
  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
  • 1