[B! *algorithm][cv] [4ページ] sh19910711のブックマーク

CVPR2020読み会 Proxy Anchor Loss for Deep Metric Learning

CVPR2020読み会(後編)の資料ですなるべくMetric Learningに良い感じに入門できるようになってます

sh19910711 2024/06/09

"Metric Learning: 未知のクラスも「未知のクラス」として対応できる + 学習時に無いクラスが推論に出てくる課題設定に◎ (Face Recognition, ...) / Proxy Anchor Loss: 各クラスにつき1つある代表点 + 空間的情報は活かしきれてない" 2020

リンク

HOG特徴量を用いたポケモンのアイコン画像判別 - Qiita

#目的ポケモンの対戦ログツールは色々とあるんだけど、相手パーティの内容を自分で入力しないといけないのがかったるすぎるので自動で判別してくれるようなものを作りたかった。 HOG特徴量を使ってみたかった。実装済みのものは記事の一番下に置いてあります。 ※今回のバージョンは偽トロキャプチャなどを使ってモニタなどに映された画面を対象としてます。 #HOG特徴量について HOG (Histgram Of Gradient) は画像中の輝度勾配の分布みたいな感じです。輝度が大きく変化する場所を検出できるので、おおまかに言って画像のエッジ分布を取得できます。ここの説明がわかりやすかった。画像で表現すると、こんな感じになります。 (画像の出典は琴葉姉妹立ち絵素材(各30種)) 利用できるデータの背景色と判別対象となるゲーム画面での背景色が異なるゲーム画面の方では位置によって背景色が異なる

sh19910711 2024/06/08

"HOG: 画像中の輝度勾配の分布みたいな感じ + 輝度が大きく変化する場所を検出できる / 30x30画像をBGRの3色のチャンネルに分割 + 3色分のHOGを結合して972次元のベクトルにする / 8割程度は当てられる" 2017

リンク

CNNを用いたテクスチャ合成(Texture Synthesis)の仕組みのメモ - めも

問題設定と評価指標既存の手法ノンパラメトリックな手法パラメトリックな手法提案手法概要詳細ステップ1 ステップ2 これを基にした画風変換参考文献自分の研究が画像処理系の機械学習と関係ないのでやや適当です。問題設定と評価指標 [Gatys2015]より。ある画風の画像を入力して、その画風を持った見た目が自然な画像を出力する。画風の元になった画像が認識できない状態を保って成功とする。つまり画像のつぎはぎが目立つ、といったケースは問題にしない。 CNNを用いた画風変換の元になったモデル。既存の手法パラメトリック、ノンパラメトリックと大きく二つの方針に分かれている。ノンパラメトリックな手法画風の元になる画像を指定して、そこから画風（を表してると思われるもの）をうまくサンプリングして新しい画像や物体に適用する。画風変換で検索すると、もはやCNNベースの手法しか検索で出

sh19910711 2024/06/07

"CNNベースの手法が出る前のテクスチャ合成に関するサーベイ論文は[Wei2009]が詳しい / テクスチャに存在する画像の位置情報によらない画風に関する情報は特徴マップの相関で表現できるはず" 2017

リンク

【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections - Qiita

概要画像集合をもとに新しい視点からの画像を合成する技術であるNeRF in the Wild（NeRF-W）について紹介します。例えば、Photo Tourism Datasetには、ある特定のランドマークを様々な位置から撮影した写真が多数含まれています。そのような画像集合から、ランドマークの3次元的な形状を把握し、写真集合には含まれない新しい視点から見たときの合成画像を作成することができる、というのが目的となります。新しい視点からの合成結果をつなぎ合わせると、公式のプロジェクトページ内にあるような動画も生成することができます。先行手法として、もともと提案されていたNeRF1という手法がありましたが、本手法は天候の変化やオクルージョンが発生している自然な写真の集合でも効果的にモデルを構築できる工夫を盛り込んでいます。本手法はNeRFに大きく依存しているので、この記事では、まずはNeR

sh19910711 2024/06/07

"形状を把握し写真集合には含まれない新しい視点から見たときの合成画像を作成する / NeRF: 位置𝑥と方向𝑑に対して一意に密度𝜎や色𝑐が定まり + 粗いモデルと精細なモデルという2つのモデルを同時に訓練"

リンク

【論文】Deformable Convolutional Networks (2017) - Qiita

[1703.06211] Deformable Convolutional Networks メタ情報 ICCV 2017 oral paper Microsoft Research Asia 著者実装日本語による解説 (見つけられた範囲で) Deformable Convolutional Networks Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― 機械学習論文読みメモ_108 - Qiita 概要本質的に、CNN はその構造上、幾何的な 1 変換処理に制限されているその欠点を克服するために、 deformable convolution と deformable RoI pooling を提案する物体検出と semantic segmentation のタスクで結果を検証する導入

sh19910711 2024/06/06

"CNN: 畳み込みも pooling も固定された位置に対する処理なので、幾何的な変形に対して弱い / 畳み込みに学習可能な2Dオフセットを導入 / 学習済みモデルに deformable の offset field を入れて追加で学習 + ただし細々した調整" 2018

リンク

アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線を自動解析させるまで - Qiita

アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線を自動解析させるまでPython DeepLearningWeathergrib2SemanticSegmentation アメリカ気象局の天気図の前線描画を学習させたSemantic Segmentationのニューラルネットワークに、日本付近の前線描画をさせるまで 1. はじめにしばらくアメリカ暮らしをすることになりました。日本で使っていたパソコンも無事移設することが出来ましたので、せっかくの機会ですからアメリカの気象データを使って機械学習をやってみました。まずは「気象可視化画像から前線を自動描画する」を試しました。また、このネットワークに日本付近の前線解析をさせてみました。アメリカ流の気象データ解析（前線を検知して描画する）を学習して、日本のデータを解析して

sh19910711 2024/06/06

"性質の異なる空気の接するところ / 実際の気象場の中にはそういうところは沢山あって、それら全てに前線記号をつけていくわけではありません / どれにどう線を描いていくのかは各国の気象機関によって異なり" 2023

リンク

Gaussian Filter を用いた画像の暈し． - Daily Tech Blog

sh19910711 2024/06/06

"画像の前処理としてフィルタリングをすることもある / Gaussian Filterはガウスカーネルを持つフィルタなので，フィルタの設定値として標準偏差（σ）を指定 / この σ がどんな意味を持つのか" 2020

リンク

ArcFace : 顔認証を行う機械学習モデル

ArcFaceはメトリックスラーニングという仕組みを使用しており、通常のClassificationタスクにSoftmax Lossを置き換えるAngular Mergin Lossを導入することで、距離学習をClassificationタスクで解くことができるようになっています。顔同士の距離はCos距離を用いています。Cos距離は検索エンジンでも使用される方法で、正規化された2つのベクトルの内積で計算できます。2つのベクトルが同じであればθが0になりcosθ=1、直行していればθがπ/2になりcosθ=0になります。そのため、類似度として使用できます。（出典：https://arxiv.org/abs/1801.07698）通常のClassificationタスクでは、Featureを計算した後、FC層でFeatureとWeightの内積を取り、出力にSoftmaxを適用します。 A

sh19910711 2024/06/06

"ailia: エッジ向け推論フレームワーク + 公開されている機械学習モデルを使用する / ArcFace: ClassificationタスクにSoftmax Lossを置き換えるAngular Mergin Lossを導入 / バッチ1にそのまま、バッチ2に水平FLIPした画像を入力" 2020

リンク

ImageNet について考える (2) — Tiny ImageNet の分類

目的 ImageNet について考える (1) — Tiny ImageNet で Tiny ImageNet を調べたので、実際に分類モデルを訓練してみたい。やること VGG16 の転移学習ベースで訓練する。ImageNet について考える (1) — Tiny ImageNet でも触れた ImageClassificationProject-IITK が分かりやすいので、これをベースとする。また VGGNet and Tiny ImageNet という記事も参考になる部分が多かったので、一部適用している。実装には PyTorch を用いて、val acc=0.5 程度で満足することにした。これくらいの画質で簡単なアーキテクチャで 1/2 の確率で 200 クラスの中から正解を引けるなら御の字であろう。データセット tiny-imagenet-200.zip を展開すると tin

sh19910711 2024/06/06

"Tiny ImageNet: VGG16 の転移学習ベース + 分類器だけを差し替え / VGGNet and Tiny ImageNet という記事も参考になる部分が多かった / 分類器以外の層を固定して転移学習 + モデル全体の層を固定解除してファインチューニング"

リンク

Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した画像認識モデルMLP-Mixerというモデルが提案されました。今回はこのMLP-Mixerについて解説したいと思います。論文データ arxiv :「MLP-Mixer: An all-MLP Architecture for Vision」 [Submitted on 23 Mar 2021 (v1), last revised 30 Mar 2021 (this version, v2)] 論文の概要画

sh19910711 2024/06/06

"MLP-Mixer: 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した / パッチを空間方向及びチャンネル方向に関して多層パーセプトロンで変換(mix)させる" 2021

リンク

【転移学習で顔認識モデルを作ってみた】 - Qiita

はじめに後追いながら、機械学習が熱いということで転移学習を用いて、人物画像を識別する学習モデルを作成してみました。画像の前処理や水増しから学習モデルの構築などの過程をまとめています。モデルの想定ユースケース人物画像の識別となると思いたのが、マンションのセキュリティ用監視カメラでした。登録された住人以外の人が入り込んだ際に、不審者として識別してタグづけするようなものを考えていたのですが、動画などは難易度が高いため、今回は顔画像を使っての顔認識モデルを作成しました。画像について画像枚数今回、学習用の元画像50枚と学習モデルのテスト用に20枚ほど用意しました。正直画像の収集が一番大変な作業でした、、人物画像の元画像: 計50枚(10枚✖️住人5人) 学習モデルのテスト用: 計20枚(4枚✖️) 人物画像例学習には知り合いの顔画像を利用しており、以下のように顔のみや上半身が

sh19910711 2024/06/06

"VGG16: TPUで大体40分ほど学習に必要だった / 20枚中13枚が正しく識別されており、精度としては大体65~70%とそこそこ / 学習用の元画像が少なかったことや、画像のバリエーションが少なかった" 2022

リンク

論文翻訳: Deep Clustering for Unsupervised Learning of Visual Features - MOXBOX #DeepCluster #CNN

$ \def\vector#1{\boldsymbol{#1}} $ $ \newcommand{\argmax}{\mathop{\rm argmax}\limits} $ Mathilde Caron, Piotr Bojanowski, Armand Joulin, and Matthijs Douze Facebook AI Research Abstract 概要: クラスタリングはコンピュータ・ビジョンで広く適用され研究されている教師なし学習方法の一種である。しかし大規模なデータセット上での視覚的特徴量の end-to-end 学習にクラスタリングを適用させる研究は殆ど行われていない。本研究では、ニューラルネットワークのパラメータと、その結果として得られた特徴量のクラスタ割り当てを組み合わせて学習するクラスタリング手法である DeepCluster を提示する。Deep

sh19910711 2024/05/29

"DeepCluster: k-means を使用して特徴量を反復的にグループ化 + そのクラスタ割り当てを次の学習の教師として使用しネットワークの重みを更新 / このタイプの交互の手順は自明解 (trivial solution) になりがち" 2018

リンク

GANを使わず画像を綺麗にしたい話（SRFlow） - Qiita

はじめに ABEJA Advent Calendar 2021の8日目の記事です。この記事では素晴らしい技術のはずなのになかなか日の目を浴びないFlowと呼ばれる技術を使った超解像について書こうと思います。これを読んだ暁には「そうか、だから日の目を浴びないのか」となっていると思います。そしてなぜこの人はこんなマニアックな記事を書いているんだろうと思うことでしょう。超解像の概要超解像とはざっくりいうと小さい画像を大きくする技術のことを指します。画素数の少ない低解像度な小さい画像を、画素数の多い高解像度の大きい画像にするということは、何かしらの方法で画素を補間してあげる必要があります。非常にわかりやすいこちらの記事にもあるように、超解像とは不良設定問題です。画像丸パクで大変恐縮ですが、1x3pixelの画像を2倍拡大して2x6pixelにする場合、以下のように様々なパターンが考え

sh19910711 2024/05/29

"画像生成タスクといえばVAEかGANとなり、Flowなんて言葉は出てくることすらない / Normalizing Flow: 入力から、未知の値𝑦（超解像でいうところの新しい画素）を確率密度関数として表現する確率モデル" 2021

リンク

Unet, VAE+Unet, Dncnnを用いて、ガウスノイズ画像を復元してみた - Qiita

はじめにピンボケ画像の復元をしたいと思い、いくつか検証を行ったので記事にしました。ピンボケ画像は、一般的にはガウシアンフィルタ(ぼかしフィルタ)に近似できるとのことで、当初はフーリエ変換を用いた方法(ウィーナフィルタ)を検討していました。しかし、撮影環境が変わったりピンボケの拡がり方が多様な場合は、汎化性能的に深層学習の方が優位性があるかなと思い、深層学習のモデルを用いた検証を行いました。調べてみると、Dncnnなどノイズ除去目的のモデルがあったため、dncnn含め以前作成したUnetとVAE+Unetを用いました。加えて、モデルは復元させる綺麗な画像自体を学習するよりもノイズを学習しやすい傾向があるとのことで、(stable diffusionも考え方は似ていますよね。こちらもノイズを正規分布として仮定しているため、考え方はほぼ同じな気がします。)Unetの出力をノイズを学習させ

sh19910711 2024/05/29

"ピンボケ画像の復元をしたい / DnCNN: 最後の層の出力をノイズと仮定し、入力とノイズの差分を最終的なモデルの出力とします / 出力と綺麗な画像を損失関数に与えることで、出力を綺麗な画像に寄せる" 2023

リンク

Resnet-50の精度を高める方法について（Bag of Tricks論文解説） - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 0.参考にした論文 Bag of Tricks for Image Classification with Convolutional Neural Networks 画像分類において、深層学習を用いているのですが、なかなか局所最適に陥ったりなんか精度が上がる手法って何があるんだろうと思い、 chat-GPT様に「なんかいい論文はないのか」と聞いたところなんか良さそうな論文があった。さまざまな手法が載っており、自分の持っているモデルに活用できそうなtickがたくさんあった。 0.1 簡潔にこの論文でやっていること BaseはRes

sh19910711 2024/05/29

"Label Smoothingの有効性: 真のラベルを真のラベルと他のラベルの混合物に置き換えることで、予測される確率に少量の不確実性を追加 + オーバーフィッティングを防ぎ、モデルが予測に自信を持つ" 2023

リンク

Revisiting L1 Loss in Super-Resolution: A Probabilistic View and Beyond を読んで - CADDi Tech Blog

はじめにこんにちは。2022年に誕生したAI Labというチームで、主に図面解析をしている中村遵介です。趣味が料理と画像を4倍に拡大することなので、今日は最近読んだ「Revisiting $l_1$ Loss in Super-Resolution: A Probabilistic View and Beyond[1]」という、画像の拡大で利用される損失関数に関する論文を紹介したいと思います。趣味以外の理由として、CADDiでは図面画像の解析を行なっておりノイズ除去や画像拡大などの分野に注目しているという点もあります。畳み込みニューラルネットに関する知識は必要ですが、画像の拡大に関する知識は必要としないように書いたつもりです。論文の概要いったん細かい話を置いておいて、論文の概要をざっくりご説明します。この論文が取り組んだ課題は以下の点になるかと思います。入力された画像を拡大

sh19910711 2024/05/29

"SISR: 1枚の画像を入力とし、対応する1枚の拡大された画像を出力するタスク / 縮小すると x になる画像、すなわち求めたい綺麗な高画質画像 y は複数存在 + 正解の手法が存在せず（不可能決定問題）" 2022

リンク

3Dモデルから自動的に生成した画像とアノテーションのデータセットで学習するセマンティックセグメンテーション - Qiita

はじめにセマンティックセグメンテーションを行う時に普段はアノテーションを作成するのは大変な作業でしょう。もしそれが自動的に作れるのならどれくらい楽になるでしょうね。私は「自動的に生成された画像データセットで学習して本物に適用する」ということはよくやっています。普通の分類モデルでも教師データを準備することは大変なことだから、自動生成のデータが代わりに使えたら楽ですね。そしてその生成データはセマンティックセグメンテーションにも使えるようにすることもできます。自動的に生成したデータなので、アノテーションも当然同時に作成することができます。しかもこれは手作業より正確で完璧なアノテーションになるでしょう。「学習データがないので自分で生成する」という話はよくあることで新しいことではないのですが、これをセマンティックセグメンテーションに使う例はあまり聞いたことないの意外でした。だから私は自分で試

sh19910711 2024/05/27

"自動的に生成したデータなので、アノテーションも当然同時に作成することができ + 手作業より正確で完璧 / 海星ヒトデを入れるのと入れない同じ画像のペアで学習すると海星ヒトデの特徴を把握しやすい"

リンク

GRUとAutoencoderを用いた，動画の再構成手法の検証と実装 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要皆様，いかがお過ごしでしょうか．コロナウイルス感染症の拡大に伴い，自宅でお仕事や研究をされている方も多いのではないでしょうか．かくいう私も，ここ数か月はずっと自宅でPCとにらめっこの毎日です．さすがに疲れましたね笑さて，今回は，生成モデルを活用した再構成タスクに着目してみたいと思います．特に，「動画」の再構成にトライします．（当記事でご理解いただけるのは，動画の異常検知に拡張可能な，encoder-decoderベースの時系列モデルをかませた再構成手法の実験結果と考察であり，数式などの理論的背景までは追いません．）巷で

sh19910711 2024/05/26

"画像の再構成に活用できる生成モデルとして，VAEは特に有名ですし，最近ではGANを活用した異常検知手法(AnoGAN，EfficientGANなど)なんかも登場 / GRUと，encoder-decoderモデルを組み合わせて，動画再構成モデルを実装" 2020

リンク

新たなdata augmentation手法mixupを試してみた - Qiita

はじめに最近arXivに論文が公開されたdata augmentation手法であるmixupが非常にシンプルな手法だったので試してみました。 mixup mixup1は、2つの訓練サンプルのペアを混合して新たな訓練サンプルを作成するdata augmentation手法の1つです。具体的には、データとラベルのペア$(X_1, y_1)$, $(X_2, y_2)$から、下記の式により新たな訓練サンプル$(X, y)$を作成します。ここでラベル$y_1, y_2$はone-hot表現のベクトルになっているものとします。$X_1, X_2$は任意のベクトルやテンソルです。 import numpy as np class MixupGenerator(): def __init__(self, X_train, y_train, batch_size=32, alpha=0.2, shu

sh19910711 2024/05/26

"mixup: 2つの訓練サンプルのペアを混合して新たな訓練サンプルを作成 + 特徴的なのはデータ𝑋1,𝑋2だけではなく、ラベル𝑦1,𝑦2も混合してしまう点 / Random Erasingのほうが画像ドメインでは効果がありそうな印象" 2017

リンク

VAEによる画像検索システム - Qiita

※データセットの配布元： GitHub「fashion-mnist／zalandoresearch」。The MIT License (MIT) Copyright © [2017] Zalando SE, https://tech.zalando.com ※出典： Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747 また、ネットワークは以下のようなものを用います。エンコーダーデコーダー VAEの結果作成したVAEモデルは以下のような結果になりました。訓練結果最初はテストデータの誤差が異常に大きくなっていましたが、正常に訓練できています。再現画像上段

sh19910711 2024/05/26

"VAEにより次元圧縮をして、潜在空間上で距離が近いものを検索 / 最初はCIFAR-10でやろうとしていたのですが、カラー画像だとVAEの学習がどうしてもうまくいかないようだった" 2021

リンク

はてなブックマーク

タグ

関連タグで絞り込む (41)

*algorithmとcvに関するsh19910711のブックマーク (140)

お知らせ

はてなブックマーク透明性レポート（2024年11月～2025年2月）

今週のはてなブックマーク数ランキング（2025年6月第3週）

今週のはてなブックマーク数ランキング（2025年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス