CVPR2020読み会(後編)の資料です なるべくMetric Learningに良い感じに入門できるようになってます

#目的 ポケモンの対戦ログツールは色々とあるんだけど、相手パーティの内容を自分で入力しないといけないのがかったるすぎるので自動で判別してくれるようなものを作りたかった。 HOG特徴量を使ってみたかった。 実装済みのものは記事の一番下に置いてあります。 ※今回のバージョンは偽トロキャプチャなどを使ってモニタなどに映された画面を対象としてます。 #HOG特徴量について HOG (Histgram Of Gradient) は画像中の輝度勾配の分布みたいな感じです。 輝度が大きく変化する場所を検出できるので、おおまかに言って画像のエッジ分布を取得できます。 ここの説明がわかりやすかった。 画像で表現すると、 こんな感じになります。 (画像の出典は琴葉姉妹 立ち絵素材(各30種)) 利用できるデータの背景色と判別対象となるゲーム画面での背景色が異なる ゲーム画面の方では位置によって背景色が異なる
問題設定と評価指標 既存の手法 ノンパラメトリックな手法 パラメトリックな手法 提案手法 概要 詳細 ステップ1 ステップ2 これを基にした画風変換 参考文献 自分の研究が画像処理系の機械学習と関係ないのでやや適当です。 問題設定と評価指標 [Gatys2015]より。 ある画風の画像を入力して、その画風を持った見た目が自然な画像を出力する。 画風の元になった画像が認識できない状態を保って成功とする。つまり画像のつぎはぎが目立つ、といったケースは問題にしない。 CNNを用いた画風変換の元になったモデル。 既存の手法 パラメトリック、ノンパラメトリックと大きく二つの方針に分かれている。 ノンパラメトリックな手法 画風の元になる画像を指定して、そこから画風(を表してると思われるもの)をうまくサンプリングして新しい画像や物体に適用する。 画風変換で検索すると、もはやCNNベースの手法しか検索で出
概要 画像集合をもとに新しい視点からの画像を合成する技術であるNeRF in the Wild(NeRF-W)について紹介します。 例えば、Photo Tourism Datasetには、ある特定のランドマークを様々な位置から撮影した写真が多数含まれています。そのような画像集合から、ランドマークの3次元的な形状を把握し、写真集合には含まれない新しい視点から見たときの合成画像を作成することができる、というのが目的となります。新しい視点からの合成結果をつなぎ合わせると、公式のプロジェクトページ内にあるような動画も生成することができます。 先行手法として、もともと提案されていたNeRF1という手法がありましたが、本手法は天候の変化やオクルージョンが発生している自然な写真の集合でも効果的にモデルを構築できる工夫を盛り込んでいます。本手法はNeRFに大きく依存しているので、この記事では、まずはNeR
[1703.06211] Deformable Convolutional Networks メタ情報 ICCV 2017 oral paper Microsoft Research Asia 著者実装 日本語による解説 (見つけられた範囲で) Deformable Convolutional Networks Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― 機械学習論文読みメモ_108 - Qiita 概要 本質的に、CNN はその構造上、幾何的な 1 変換処理に制限されている その欠点を克服するために、 deformable convolution と deformable RoI pooling を提案する 物体検出と semantic segmentation のタスクで結果を検証する 導入
アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線を自動解析させるまでPythonDeepLearningWeathergrib2SemanticSegmentation アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線描画をさせるまで 1. はじめに しばらくアメリカ暮らしをすることになりました。日本で使っていたパソコンも無事移設することが出来ましたので、せっかくの機会ですからアメリカの気象データを使って機械学習をやってみました。まずは「気象可視化画像から前線を自動描画する」を試しました。また、このネットワークに日本付近の前線解析をさせてみました。アメリカ流の気象データ解析(前線を検知して描画する)を学習して、日本のデータを解析して
ArcFaceはメトリックスラーニングという仕組みを使用しており、通常のClassificationタスクにSoftmax Lossを置き換えるAngular Mergin Lossを導入することで、距離学習をClassificationタスクで解くことができるようになっています。 顔同士の距離はCos距離を用いています。Cos距離は検索エンジンでも使用される方法で、正規化された2つのベクトルの内積で計算できます。2つのベクトルが同じであればθが0になりcosθ=1、直行していればθがπ/2になりcosθ=0になります。そのため、類似度として使用できます。 (出典:https://arxiv.org/abs/1801.07698)通常のClassificationタスクでは、Featureを計算した後、FC層でFeatureとWeightの内積を取り、出力にSoftmaxを適用します。 A
目的 ImageNet について考える (1) — Tiny ImageNet で Tiny ImageNet を調べたので、実際に分類モデルを訓練してみたい。 やること VGG16 の転移学習ベースで訓練する。ImageNet について考える (1) — Tiny ImageNet でも触れた ImageClassificationProject-IITK が分かりやすいので、これをベースとする。また VGGNet and Tiny ImageNet という記事も参考になる部分が多かったので、一部適用している。 実装には PyTorch を用いて、val acc=0.5 程度で満足することにした。これくらいの画質で簡単なアーキテクチャで 1/2 の確率で 200 クラスの中から正解を引けるなら御の字であろう。 データセット tiny-imagenet-200.zip を展開すると tin
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した画像認識モデルMLP-Mixerというモデルが提案されました。 今回はこのMLP-Mixerについて解説したいと思います。 論文データ arxiv :「MLP-Mixer: An all-MLP Architecture for Vision」 [Submitted on 23 Mar 2021 (v1), last revised 30 Mar 2021 (this version, v2)] 論文の概要 画
はじめに 後追いながら、機械学習が熱いということで転移学習を用いて、人物画像を識別する学習モデルを作成してみました。 画像の前処理や水増しから学習モデルの構築などの過程をまとめています。 モデルの想定ユースケース 人物画像の識別となると思いたのが、マンションのセキュリティ用監視カメラでした。 登録された住人以外の人が入り込んだ際に、不審者として識別してタグづけするようなものを考えていたのですが、 動画などは難易度が高いため、今回は顔画像を使っての顔認識モデルを作成しました。 画像について 画像枚数 今回、学習用の元画像50枚と学習モデルのテスト用に20枚ほど用意しました。 正直画像の収集が一番大変な作業でした、、 人物画像の元画像: 計50枚(10枚✖️住人5人) 学習モデルのテスト用: 計20枚(4枚✖️) 人物画像例 学習には知り合いの顔画像を利用しており、以下のように顔のみや上半身が
\( \def\vector#1{\boldsymbol{#1}} \) \( \newcommand{\argmax}{\mathop{\rm argmax}\limits} \) Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze Facebook AI Research Abstract 概要: クラスタリングはコンピュータ・ビジョンで広く適用され研究されている教師なし学習方法の一種である。しかし大規模なデータセット上での視覚的特徴量の end-to-end 学習にクラスタリングを適用させる研究は殆ど行われていない。本研究では、ニューラルネットワークのパラメータと、その結果として得られた特徴量のクラスタ割り当てを組み合わせて学習するクラスタリング手法である DeepCluster を提示する。Deep
はじめに ABEJA Advent Calendar 2021の8日目の記事です。 この記事では素晴らしい技術のはずなのになかなか日の目を浴びないFlowと呼ばれる技術を使った超解像について書こうと思います。 これを読んだ暁には「そうか、だから日の目を浴びないのか」となっていると思います。 そしてなぜこの人はこんなマニアックな記事を書いているんだろうと思うことでしょう。 超解像の概要 超解像とはざっくりいうと小さい画像を大きくする技術のことを指します。画素数の少ない低解像度な小さい画像を、画素数の多い高解像度の大きい画像にするということは、何かしらの方法で画素を補間してあげる必要があります。 非常にわかりやすいこちらの記事にもあるように、超解像とは不良設定問題です。 画像丸パクで大変恐縮ですが、1x3pixelの画像を2倍拡大して2x6pixelにする場合、以下のように様々なパターンが考え
はじめに ピンボケ画像の復元をしたいと思い、いくつか検証を行ったので記事にしました。 ピンボケ画像は、一般的にはガウシアンフィルタ(ぼかしフィルタ)に近似できるとのことで、当初はフーリエ変換を用いた方法(ウィーナフィルタ)を検討していました。しかし、撮影環境が変わったりピンボケの拡がり方が多様な場合は、汎化性能的に深層学習の方が優位性があるかなと思い、深層学習のモデルを用いた検証を行いました。 調べてみると、Dncnnなどノイズ除去目的のモデルがあったため、dncnn含め以前作成したUnetとVAE+Unetを用いました。 加えて、モデルは復元させる綺麗な画像自体を学習するよりもノイズを学習しやすい傾向があるとのことで、(stable diffusionも考え方は似ていますよね。こちらもノイズを正規分布として仮定しているため、考え方はほぼ同じな気がします。)Unetの出力をノイズを学習させ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 0.参考にした論文 Bag of Tricks for Image Classification with Convolutional Neural Networks 画像分類において、深層学習を用いているのですが、なかなか局所最適に陥ったり なんか精度が上がる手法って何があるんだろうと思い、 chat-GPT様に「なんかいい論文はないのか」と聞いたところ なんか良さそうな論文があった。 さまざまな手法が載っており、自分の持っているモデルに活用できそうなtickがたくさんあった。 0.1 簡潔にこの論文でやっていること BaseはRes
はじめに こんにちは。2022年に誕生したAI Labというチームで、主に図面解析をしている中村遵介です。 趣味が料理と画像を4倍に拡大することなので、今日は最近読んだ「Revisiting $l_1$ Loss in Super-Resolution: A Probabilistic View and Beyond[1]」という、画像の拡大で利用される損失関数に関する論文を紹介したいと思います。 趣味以外の理由として、CADDiでは図面画像の解析を行なっておりノイズ除去や画像拡大などの分野に注目しているという点もあります。 畳み込みニューラルネットに関する知識は必要ですが、画像の拡大に関する知識は必要としないように書いたつもりです。 論文の概要 いったん細かい話を置いておいて、論文の概要をざっくりご説明します。 この論文が取り組んだ課題は以下の点になるかと思います。 入力された画像を拡大
はじめに セマンティックセグメンテーションを行う時に普段はアノテーションを作成するのは大変な作業でしょう。もしそれが自動的に作れるのならどれくらい楽になるでしょうね。 私は「自動的に生成された画像データセットで学習して本物に適用する」ということはよくやっています。普通の分類モデルでも教師データを準備することは大変なことだから、自動生成のデータが代わりに使えたら楽ですね。 そしてその生成データはセマンティックセグメンテーションにも使えるようにすることもできます。自動的に生成したデータなので、アノテーションも当然同時に作成することができます。しかもこれは手作業より正確で完璧なアノテーションになるでしょう。 「学習データがないので自分で生成する」という話はよくあることで新しいことではないのですが、これをセマンティックセグメンテーションに使う例はあまり聞いたことないの意外でした。だから私は自分で試
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要 皆様,いかがお過ごしでしょうか. コロナウイルス感染症の拡大に伴い,自宅でお仕事や研究をされている方も多いのではないでしょうか. かくいう私も,ここ数か月はずっと自宅でPCとにらめっこの毎日です.さすがに疲れましたね笑 さて,今回は,生成モデルを活用した再構成タスクに着目してみたいと思います. 特に,「動画」の再構成にトライします. (当記事でご理解いただけるのは,動画の異常検知に拡張可能な,encoder-decoderベースの時系列モデルをかませた再構成手法の実験結果と考察であり,数式などの理論的背景までは追いません.) 巷で
はじめに 最近arXivに論文が公開されたdata augmentation手法であるmixupが非常にシンプルな手法だったので試してみました。 mixup mixup1は、2つの訓練サンプルのペアを混合して新たな訓練サンプルを作成するdata augmentation手法の1つです。 具体的には、データとラベルのペア$(X_1, y_1)$, $(X_2, y_2)$から、下記の式により新たな訓練サンプル$(X, y)$を作成します。ここでラベル$y_1, y_2$はone-hot表現のベクトルになっているものとします。$X_1, X_2$は任意のベクトルやテンソルです。 import numpy as np class MixupGenerator(): def __init__(self, X_train, y_train, batch_size=32, alpha=0.2, shu
※データセットの配布元: GitHub「fashion-mnist/zalandoresearch」。The MIT License (MIT) Copyright © [2017] Zalando SE, https://tech.zalando.com ※出典: Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747 また、ネットワークは以下のようなものを用います。 エンコーダー デコーダー VAEの結果 作成したVAEモデルは以下のような結果になりました。 訓練結果 最初はテストデータの誤差が異常に大きくなっていましたが、正常に訓練できています。 再現画像 上段
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く