[B! cnn] syou6162のブックマーク

Chainerで画像のキャプション生成 - Qiita

概要 Chainerを使って画像のキャプション生成を実装しました。画像を入力するとその説明文を生成します。ソースコードは以下にあります。 https://github.com/dsanno/chainer-image-caption 以下の論文のアルゴリズムを使いました。 Show and tell: A neural image caption generator すでにChainerでキャプション生成を実装されている方もいたので、そちらも参考にしました。 Image caption generation by CNN and LSTM ～ Satoshi's Blog from Bloomington キャプション生成モデル論文で使用するキャプション生成モデルは大きく分けて3つのネットワークで構成されています。画像をベクトルに変換する${\rm CNN}$ ${\rm CNN}$に

syou6162 2017/10/02

cnn
lstm

リンク

CNN による画像分類で使われる前処理・テスト時処理まとめ - iwiwi 備忘録

とりあえず ImageNet 系の論文で、目に入ったものから順々にまとめていきます。情報・ツッコミ歓迎。前処理・Data Augmentation Mean Subtraction 入力画像から平均を引く。[103.939, 116.779, 123.68] を各ピクセルから引く。VGG はこれ。 Per-pixel Mean Subtraction 入力画像から平均を引く。ピクセル・チャンネルごとに計算された平均を引く。即ち、224x224x3 個の値について個別に平均を計算し用いる。AlexNet 論文から使われており、ResNet もこれ。 Random Crop 256x256 ピクセルに画像をリサイズし、そこから 224x224 のパッチをランダムに取り出す。AlexNet 論文で使われていた。ちなみに Chainer の ImageNet サンプルはこれと Horizonta