サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
suzuichiblogpg.hatenadiary.jp
2017 - 02 - 15 Batch Normalizationを使わないDCGAN 自己符号化器を使った事前学習 をDCGANに適用したものは、顔のようなバリエーションが比較的少ないものならば機能しました。 しかし背景画像のようなバリエーションが豊富なものにはうまく機能しませんでした。 本来ならDCGANの論文にあるようにBatch Normalizationを使うべきなのですが、TensorFlowでの使い方がよくわかりませんでした。 tf.contrib.layers.batch_normを使ってみましたが、おそらく私の実装ミスのせいでうまくいきませんでした。 そこでいろいろと試行錯誤をして良い感じの設定にすることで、Batch Normalizationを使わなくても画像を生成させるのに成功しました。 1.重要なポイント ・最適化手法:Adamを使い学習率を0.0002に、be
2017 - 01 - 25 ディープラーニングを使わない顔認識まとめ sugyanさんのアイドルデータセット で99.6%程度出たのでまとめておきます。 精度としては1200枚中4枚しか間違わないレベルです。 ちなみに間違えた4枚は次の通りです。 1.データの水増し 基本的にデータ数は多いほうが良いのでちょっとしたテクニックを使って増やしておきます。 左右反転した画像もトレーニングデータに加えます。 またガンマ補正によって少し暗くしたり明るくした画像もトレーニングデータに加えます。 2.顔検出 顔検出ではdlibを使います。 OpenCV にも顔検出機能がありますがdlibの方が良いでしょう。 理由としては OpenCV はインストールが面倒で、精度がdlibより低く、次のステップで使う顔の特徴点検出機能がない、という点が上げられます。 python 版のdlibならばpip insta
2016 - 12 - 01 自己符号化器を用いたDCGANの事前学習 注意:まだ研究中なのでこのページの内容は間違っていたりしてると思います。 今さらですがDCGANに手を出してみました。 ただ試すだけでは味気ないので少しアレンジしてみました。 データはsugyanさんのアイドル画像デー タセット を使いました。 1.前置き 昨年の今頃にDCGAN(Deep Convolutional Generative Adversarial Networks)が話題となっていました。 DCGANとは、一様乱数の100次元ベクトルからきれいな画像を生成するgeneratorを作る、というものです。 例えばDCGANを使えば、 アニメ顔を生成 したり、 アイドルの顔を生成 したりできます。 DCGANの詳しい内容は こちらのページ をご覧ください。 ところで、 こちらのページ によれば、DCGANは学
2016 - 10 - 31 ディープラーニングを使わない顔認識3 CNN編 「ゼロから作るDeepLearning」を読んで畳み込み ニューラルネットワーク (CNN)を実装したので顔認識で試してみました。 この本自体も githubにあるソースコード も読みやすいのでお勧めの一冊です。 (私は、 amazon では品切れだったので、yodobashi.comで買いました。yodobashi.comには今も在庫があるようです。) 今回はCNNを使っていますが、3回しか畳み込み+プーリングを行わなわず、そこまでディープではないので、 ディープラーニング を使わないというタイトルにしました。 その結果 sugyanさんのアイドルデータセット のcase5で98%超の精度が出ました。 また、トレーニング全体が終わるまでに1日程度かかりました。 以下に方法を書いていきます。 1.データの水増し
2016 - 09 - 14 ディープラーニングを使わない顔認識2 今回は 前に書いた方法 を改良したので、その方法を書いておこうと思います。 その前に以前の はてブ のコメントで処理負荷を知りたいという意見があったので書いておきます。 使用したデータは sugyanさんのアイドルデータセット です。 (何度も使ってすみません。。。) このデー タセット は40人のアイドルの画像がそれぞれ180枚あります。 ここでは150枚をトレーニングに使う画像、30枚をテスト用の画像としました。 またトレーニングでは反転画像も使用したので枚数は上記の2倍です。 このデー タセット では既に、顔検出と位置あわせが済んでいるのでその部分はスキップしました。 python で作った簡易版ですが、特徴量を取り出すのに約10分、40クラス分のlogistic regressionのトレーニングに約20分、テスト
2016 - 09 - 08 トレーニングデータ数と正解率との関係 今回はトレーニングデータ数と正解率との関係を調べました。 使用したデータは sugyanさんのアイドルデータセット です。 このデー タセット は40人のアイドルの画像がそれぞれ180枚あります。 ここでは150枚をトレーニングに使う画像、30枚をテスト用の画像としました。 トレーニング・テストの手法はHOGを使った(たぶん)オリジナルの方法で、 前回のもの を少し改善しました。 ただし、 python で作った簡易版なので C++ で作ったオリジナル版には数%ですが劣ります。 ここで使用した手法は後日詳しいやり方を書こうと思います。 トレーニングデータ数を一人当たり1、5、10、30、60、90、120、150枚と変えたときの正解率を示したものが下の図になります。 ただし、トレーニングに使用した画像は反転したものも含める
2016 - 07 - 08 ボイスチェンジャー1 統計的声質変換 (1) ロードマップ を参考にしつつボイスチェンジャーを作っていました。 先に結果を載せておきます。 データは softalk の女性01と男性(m4b)を使いました。 トレーニングデータは 外郎売 でテストデータは 平家物語 の冒頭です。 ただ音声の分解コマンドのオプションが良く分からなかったので、合成した結果が元の音声と違って聞こえます。 ソース(変換前の声) ターゲット(正解の声) 変換結果(男の声を女の声に変換) 変換結果を正解データと比べるとまだまだ精度が低いですが、いろいろ試行錯誤した結果でこれなので、これ以上ボイスチェンジャーはやりたくない気分です。 トレーニングに使った 外郎売 は6分程度だったので、もう少しデータ数を増やせば精度が上がるかもしれません。 というか音声ファイルってaudioってタグで貼り付け
2016 - 06 - 24 ディープラーニングを使わない顔認識 最近は様々なところで ディープラーニング が使われています。 ここで書く顔認識の分野でも主流となっています。 しかし、この記事ではあえてそれを使わない方法を説明します。 というか単に ディープラーニング がうまく扱えなくて、自己流で顔認識技術を改良して言っただけですが……。 ちなみにここでは、画像中から人の顔を見つけるのが顔”検出”、その顔が誰であるかを特定するのが顔”認識”ということにしておきます。 一昔前の顔認識ではeigen face、fisher faceやLBPなどが使われていました。 これらは OpenCV に実装されているので、簡単に利用することが出来ます。 しかし実際に試してみたところ、これらは精度があまり高くない気がしました。 他に良い方法がないか探していたら、ぱろすけさんがAV女優の顔認識に関する論文を書
このページを最初にブックマークしてみませんか?
『suzuichiblogpg.hatenadiary.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く