タグ

前処理に関するp_tanのブックマーク (6)

  • たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!

    3つの要点 ✔️ ランダムにData Augmentationの手法を選択するRandAugmentを提案 ✔️ 従来のAutoAugmentと比べ探索空間を$10^{-30}$にも削減し計算量を激減させたことで実践で使えるようにしただけでなく、CIFAR-10/100やImageNet, COCOなどのデータセットにおいて有用性が確認できた ✔️ ImageNetのSoTAであるNoisyStudentにも使われており、関数は2行で実装できるため読者の方も容易に使うことができる。 RandAugment: Practical automated data augmentation with a reduced search space written by Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, Quoc V. Le (Submitted

    たった2行で画像認識モデルの精度向上!?新しいDataAugmentation自動最適化手法「RandAugment」解説!
  • データをなるはやで前処理したい#1 - Qiita

    MLSE(機械学習工学研究会) Advent Calendar 2018 の1日目の投稿です こんにちは!BULBのデータサイエンティスト 足立です。 一般的に「分析作業の7〜8割はデータの前処理である」と言われます。前処理では具体的に、データセットの列(変数)選択や行(レコード)選択、欠損値の補間や外れ値の除去などの作業を行います。 なぜこのような作業が必要なのでしょうか? それは、課題解決につながる結果を得るために、例えば精度の高いモデルを作成するためです。精度の高いモデルを作成するために、どのようにデータを前処理して特徴量を作り出すかが腕の見せどころですね 特徴量とは何か ご存知の方も多いと思うので、サラッとした説明にとどめておきます。特徴量とは、他のデータとは異なる「そのデータ自身が持つ特徴」です。例えば、画像の被写体が犬かかによって、画像のピクセル値は異なります。また、メールが

    データをなるはやで前処理したい#1 - Qiita
  • 機械学習における、定型的な作業を自動化する - Qiita

    機械学習を利用する際は、データの前処理から始まって適切なモデルを選んでパラメーターを最適化して・・・というように多くの作業が伴います。 ただ、この作業の少なくない部分は定型的なものです。前処理でいえば、数値データに対しては正規化を行う、カテゴリー変数は0/1の特徴量へ変換する(ダミー変数化)、といった処理はどんな場合でもとりあえず実行する処理になります。 もちろん高度な特徴量エンジニアリングなどは話が別ですが、データがあったときに定型的な作業をさくっと行い、とりあえず基礎的なモデルでどれぐらいの精度が出るのかを見てみたい、というシーンはよくあるものです。 そこで、そんな作業を自動化するための仕組みを開発しました。名前はkaruraといいます。 chakki-works/karura コンセプトとしてはこの図のように、モデルを作るにあたっての定型的な一連の作業を自動化する、といったものです。

    機械学習における、定型的な作業を自動化する - Qiita
  • 前処理にディープラーニングを使う - にほんごのれんしゅう

    前処理にディープラーニングを使う 目的 スクレイパーなどで集めた画像には、ターゲットとする画像以外必要ないケースが度々ある データセットづくりと呼ばれる画像からノイズ画像を取り除くスクリーニングの作業の簡略化の必要性 画像のスクリーニングを機械学習でやってしまおうという試みです 前処理そのものにディープラーニングを投入する 画像処理において、学習したい画像かどうかをスクリーニングすることは膨大なコストがかかるので、この作業自体を自動化したい 今回はスクレイパーでいい加減にあつめたグラビア女優の画像7万枚超えを、手動でスクリーニングするのは極めて困難なので、VGG16を転移学習させてフィルタを作っていきます 一枚10円で500枚のペア(positiveとnegative)のデータセットを知り合いのニートに作ってもらう ニートの作成したデータセットをもとに、転移学習させてフィルタを構築 システ

    前処理にディープラーニングを使う - にほんごのれんしゅう
  • CNN による画像分類で使われる前処理・テスト時処理まとめ - iwiwi 備忘録

    とりあえず ImageNet 系の論文で、目に入ったものから順々にまとめていきます。情報・ツッコミ歓迎。 前処理・Data Augmentation Mean Subtraction 入力画像から平均を引く。[103.939, 116.779, 123.68] を各ピクセルから引く。VGG はこれ。 Per-pixel Mean Subtraction 入力画像から平均を引く。ピクセル・チャンネルごとに計算された平均を引く。即ち、224x224x3 個の値について個別に平均を計算し用いる。AlexNet 論文から使われており、ResNet もこれ。 Random Crop 256x256 ピクセルに画像をリサイズし、そこから 224x224 のパッチをランダムに取り出す。AlexNet 論文で使われていた。ちなみに Chainer の ImageNet サンプルはこれと Horizonta

    CNN による画像分類で使われる前処理・テスト時処理まとめ - iwiwi 備忘録
  • データ分析のための前処理アプローチと Python ツール - 捨てられたブログ

    「PyData.Tokyo Meetup #10」の発表資料です。 データ分析では前処理が大事だという話はよく聞きますが、具体的に実務で何をやるのかというレベルでの話はあまりないので、割と新鮮な話なのではないかと思います。細かいレベルではもっといろいろと書きたいことはあるのですが、発表の枠組みの中である程度網羅させるという意図でまとめています。 データ分析を行う上で、データハンドリングがうまくないとか、理論は知っているけど適用することができないとか、そういう悩みを抱えている初心者データ分析者の方は、一度目を通すと良いのではないかと思います。

  • 1