[B! cs.CV] sh19910711のブックマーク

sh19910711 id:sh19910711

cs.CVに関するsh19910711のブックマーク (11)

スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita
スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装Python 機械学習 MachineLearningDeepLearningPyTorch 2018/11/27にarXivに投稿された論文「Deformable ConvNets v2: More Deformable, Better Results」で、スケールと形状を学習可能なConvolutionであるModulated Deformable Convolutionが提案されています。おもしろそうな手法だったのでPyTorchで実装してみました。ソースコードはこちら https://github.com/4uiiurz1/pytorch-deform-conv-v2 Modulated Deformable Co
sh19910711 2024/05/22
"segmentationやobject detectionのようなタスクでは、様々なスケールと形状の物体をカバーするようなReceptive Fieldを持つネットワークを設計する必要 / modulation: 入力画素ごとの学習可能な重み(0~1)" arXiv:1811.11168 2018

*algorithm

機械学習

cv

conv

--

cs.CV
リンク
ゼロショット物体検出の研究動向
sh19910711 2024/05/18
"Zero-Shot Detection: 学習時には存在しないクラスの物体検出 + 単語空間を使うことでデータの補間ができる / Ankan18: BBoxのついていないところを検出する予定のない未知クラスの単語ベクトルに割り当て" arXiv:1804.04340 2021

*algorithm

機械学習

cv

--

W

cs.CV
リンク
Aligned Variational Autoencoder で麻雀の配牌を生成する - taijestのブログ
こんにちは。taijest です。この記事は、Sansan Advent Calendar 2021 の 7日目の記事です。はじめに皆さんは、在宅期間なにをして過ごしていますか？私は、AbemaTV で放送されている麻雀リーグ「Mリーグ」にハマっています。リーグ戦は、各チームの選手の獲得スコア合計で競い合い、一定の試合数を消化すると下位チームが脱落していくという仕組みです。ある程度セオリーがありつつも、選手のスタイルや得点状況、チーム順位によって選択が変わってくるところがとても面白いです。さて、麻雀の勝敗を決する大きな要素の一つとして、配牌があります。配牌とは、開局時に各選手に与えられる牌のことです。配牌は、早さ (どれだけ早くあがれそうか) や高さ (あがった時にどれだけ高い点数になりそうか) の観点から、その局の勝敗に大きく影響します。本記事では、麻雀への理解を深めるた
sh19910711 2024/05/18
"Aligned Variational Autoencoder: データと付与されたラベルで共通の潜在空間 + ラベルからもデータを生成しやすくなり、少ない学習データから画像を生成する Few-shot や Zero-shot な問題設定で有効" arXiv:1812.01784 2021

*algorithm

*game

機械学習

生成

--

cs.CV
リンク
Edge TPU USB Acceleratorでモデルの再学習を試してみた - 油を売る
Edge TPUを用いて，自作データセットによるClassifierの再学習（転移学習）を試してみた． Edge TPUでは，サーバで分類モデルを再学習する代わりに，ImprintingEngine APIを使用してEdge TPU上で転移学習を実行することができる． Edge TPUのImprintingEngine APIはCVPR2018で提案されたLow-shot learning with imprinted weights [1]を用いて転移学習を実現する．この手法は，再学習の際にbackwardが必要ないため，Edge TPU上で高速に再学習を実行することが出来る． Low-shot learning with imprinted weights Edge TPU APIのインストール $ wget http://storage.google apis.com/cloud-i
sh19910711 2024/05/05
"Edge TPUのImprintingEngine API: CVPR2018で提案されたLow-shot learning with imprinted weightsを用いて転移学習 / backwardが必要ないため，Edge TPU上で高速に再学習を実行することが出来る" arXiv:1712.07136 2019

*tech

computer

機械学習

--

cs.CV
リンク
metric learning のファッション分野における活躍
この記事の目的は？ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か？ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。図：自撮り画像の例図：商品画像の例出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl
sh19910711 2024/05/05
"compatibility learning: デニムジャケットにはボーダーのTシャツが合う、というようなことを学習 + コーデの採点 / アイテム特徴量を reduce して得られる文脈ベクトルをスタイルとみなし + metric learning" arXiv:1707.05691 2020

*algorithm

機械学習

W

cv

--

cs.CV
リンク
自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌
はじめに今回は、自然言語界隈に発展をもたらし、デファクトスタンダードとなったTransf ormerのモデルを物体認識に取り入れた論文(End-to-End Object Detection with Transf ormers 2020/05/26 on arXiv)を紹介します。 [2005.12872] End-to-End Object Detection with Transf ormers (記事中の図は特に言及がなければ論文のもの) こちらの論文はFacebook AIから出ており、blog記事も公開されています。概要がコンパクトにまとまっており、読みやすいです。概要だけ知りたい方にはおすすめです。 ai.facebook.com また、DL輪読会にて発表されたスライドもあるので、技術的内容を一通りさらいたい方におすすめです。 [DL輪読会]End-to-End Object D
sh19910711 2024/05/02
"DETR: 自然言語領域でよく用いられるTransformerを画像認識の領域に持ち込んだ / 物体認識をbboxの集合を予測する問題として捉え直し、それを最適化するような学習方法を提案 / encoderに画像を入れ + bboxの予測" arXiv:2005.12872 2020

*algorithm

機械学習

cv

系列

--

cs.CV
リンク
夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17
夏のトップカンファレンス論文読み会（2017/09/18）での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch
sh19910711 2024/05/01
"類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017

*event

*algorithm

cv

機械学習

--

W

cs.CV
リンク
AnoGANの論文を読んでMNISTの異常検知をしてみた
はじめに AnoGANというGANを使って正常データと異常データの分類をしよう！！的な論文を読みました．GANはデータを生成するものでは？？と思っていましたがこの論文を読みGANはそもそも何をしているのかが理解できました．開発環境 python3.6 macOS mojave 10.14 識別モデルと生成モデル一般的に画像を分類しようとしたらVGG16などのCNNを使い画像を分類する識別モデルを作ると思います．しかし医療画像などの正常データと異常データで画像の枚数に偏りがあると識別モデルを作ることは難しいとされています．そもそも識別モデルと生成モデルの違いは、識別モデルクラスとクラスの識別境界を決める生成モデルそれぞれのクラスがどのような分布をしてるのかを決めるといった違いがあります（他にももっとあるとは思いますが）．イメージは以下の図のようになります．なんで識別モデルは難
sh19910711 2024/04/24
"AnoGAN: GANを使って正常データと異常データの分類 / 生成モデルではそれぞれクラスの分布を求める / 正常データの分布に従わないデータは全て異常であるとすれば正常と異常に２値分類はできそう" arXiv:1703.05921 2018

*algorithm

機械学習

生成

--

cs.CV
リンク
Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介！
Facebookチームが開発した画像分類にTransf ormerを利用した効率モデルDeiTを紹介！ 2021.01.10 レポート学術研究, 画像処理はじめに FacebookのAIリサーチチームから、画像処理にTransf ormerを利用して効率化を目指した新たなモデル「Data-efficient image Transf ormers (DeiT)」が発表されたので、簡単にご紹介します。 ●論文 Training data-efficient image transf ormers & distillation through attention https://arxiv.org/abs/2012.12877 ●Facebook AI Blog Data-efficient image Transf ormers: A promising new technique for ima
sh19910711 2024/04/23
"DeiT; Data-efficient image Transformers: 蒸留が行えるようにTransformerアーキテクチャを修正 + 蒸留用のトークン（変換された画像データに沿う形でネットワーク内で学習されるベクトル）が導入" arXiv:2012.12877 2021

*algorithm

機械学習

分類

--

cs.CV
リンク
【論文読み】画像をグラフ構造として特徴抽出するVisionGNN - Qiita
以下の論文の内容をまとめた。 Vision GNN: An Image is Worth Graph of Nodes 2022/06 https://arxiv.org/abs/2206.00272 Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu パッチ化した画像でグラフを構築し、グラフニューラルネットワークで特徴抽出、画像分類や物体検出タスクに利用する。Transf ormerやMLPを使った画像処理の研究とコンセプトは似ている。まとめ前提/課題 CNN, transf ormer, MLP, 等を利用してコンピュータビジョンモデルが改善されている画像中の物体は通常、形状が不規則で四角形ではないため、ResNetやViTなどの従来のネットワークで一般的に使われているグリッドやシーケンス構造は、冗長で柔軟性がなく、処理しに
sh19910711 2024/04/17
"VisionGNN: 画像をノードと見なせるいくつかのパッチに分割し、近傍のパッチを連結してグラフを構成 + GNNで特徴抽出、画像分類や物体検出 / 深層部では中心ノードの近傍はより意味的" arXiv:2206.00272 2022

*algorithm

graph

cv

--

cs.CV
リンク
irisで試す相互情報量の最大化による教師なし学習手法IIC - Qiita
概要実験結果のファイルをGitHubに保存しています概要未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習することで画像のクラスタリングを行えるとのこと。つまり、画像に対して事前のアノテーション（ラベリング）作業不要でクラスタリングが可能詳細はarxiv読んでください。 Invariant Information Clustering for Unsupervised Image Classification and Segmentation（arxiv） xu-ji/IIC （本家Gitリポジトリ）教師あり学習の精度を超えた！？相互情報量の最大化による教師なし学習手法IICの登場！（日本語解説） RuABraun/phone-clustering （比較的シンプルな実装例Gitリポジトリ） MNISTはいろんなひとが実装しているので、画像ではなく、もっと
sh19910711 2024/04/05
"IIC: 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習 + 画像に対して事前のアノテーション作業不要でクラスタリング / バッチ正規化を利用しないと学習が進まない" arXiv:1807.06653 2020

*algorithm

機械学習

cv

--

cs.CV
リンク
1