タグ

cs.CVに関するsh19910711のブックマーク (11)

  • スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装Python機械学習MachineLearningDeepLearningPyTorch 2018/11/27にarXivに投稿された論文「Deformable ConvNets v2: More Deformable, Better Results」で、スケールと形状を学習可能なConvolutionであるModulated Deformable Convolutionが提案されています。おもしろそうな手法だったのでPyTorchで実装してみました。 ソースコードはこちら https://github.com/4uiiurz1/pytorch-deform-conv-v2 Modulated Deformable Co

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita
    sh19910711
    sh19910711 2024/05/22
    "segmentationやobject detectionのようなタスクでは、様々なスケールと形状の物体をカバーするようなReceptive Fieldを持つネットワークを設計する必要 / modulation: 入力画素ごとの学習可能な重み(0~1)" arXiv:1811.11168 2018
  • ゼロショット物体検出の研究動向

    sh19910711
    sh19910711 2024/05/18
    "Zero-Shot Detection: 学習時には存在しないクラスの物体検出 + 単語空間を使うことでデータの補間ができる / Ankan18: BBoxのついていないところを検出する予定のない未知クラスの単語ベクトルに割り当て" arXiv:1804.04340 2021
  • Aligned Variational Autoencoder で麻雀の配牌を生成する - taijestのブログ

    こんにちは。taijest です。 この記事は、Sansan Advent Calendar 2021 の 7日目の記事です。 はじめに 皆さんは、在宅期間なにをして過ごしていますか? 私は、AbemaTV で放送されている麻雀リーグ「Mリーグ」にハマっています。 リーグ戦は、各チームの選手の獲得スコア合計で競い合い、一定の試合数を消化すると下位チームが脱落していくという仕組みです。 ある程度セオリーがありつつも、選手のスタイルや得点状況、チーム順位によって選択が変わってくるところがとても面白いです。 さて、麻雀の勝敗を決する大きな要素の一つとして、配牌があります。配牌とは、開局時に各選手に与えられる牌のことです。配牌は、早さ (どれだけ早くあがれそうか) や高さ (あがった時にどれだけ高い点数になりそうか) の観点から、その局の勝敗に大きく影響します。 記事では、麻雀への理解を深めるた

    Aligned Variational Autoencoder で麻雀の配牌を生成する - taijestのブログ
    sh19910711
    sh19910711 2024/05/18
    "Aligned Variational Autoencoder: データと付与されたラベルで共通の潜在空間 + ラベルからもデータを生成しやすくなり、少ない学習データから画像を生成する Few-shot や Zero-shot な問題設定で有効" arXiv:1812.01784 2021
  • Edge TPU USB Acceleratorでモデルの再学習を試してみた - 油を売る

    Edge TPUを用いて,自作データセットによるClassifierの再学習(転移学習)を試してみた. Edge TPUでは,サーバで分類モデルを再学習する代わりに,ImprintingEngine APIを使用してEdge TPU上で転移学習を実行することができる. Edge TPUのImprintingEngine APIはCVPR2018で提案されたLow-shot learning with imprinted weights [1]を用いて転移学習を実現する. この手法は,再学習の際にbackwardが必要ないため,Edge TPU上で高速に再学習を実行することが出来る. Low-shot learning with imprinted weights Edge TPU APIのインストール $ wget http://storage.googleapis.com/cloud-i

    Edge TPU USB Acceleratorでモデルの再学習を試してみた - 油を売る
    sh19910711
    sh19910711 2024/05/05
    "Edge TPUのImprintingEngine API: CVPR2018で提案されたLow-shot learning with imprinted weightsを用いて転移学習 / backwardが必要ないため,Edge TPU上で高速に再学習を実行することが出来る" arXiv:1712.07136 2019
  • metric learning のファッション分野における活躍

    この記事の目的は? ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か? ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。 図:自撮り画像の例 図:商品画像の例 出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl

    metric learning のファッション分野における活躍
    sh19910711
    sh19910711 2024/05/05
    "compatibility learning: デニムジャケットにはボーダーのTシャツが合う、というようなことを学習 + コーデの採点 / アイテム特徴量を reduce して得られる文脈ベクトルをスタイルとみなし + metric learning" arXiv:1707.05691 2020
  • 自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌

    はじめに 今回は、自然言語界隈に発展をもたらし、デファクトスタンダードとなったTransformerのモデルを物体認識に取り入れた論文(End-to-End Object Detection with Transformers 2020/05/26 on arXiv)を紹介します。 [2005.12872] End-to-End Object Detection with Transformers (記事中の図は特に言及がなければ論文のもの) こちらの論文はFacebook AIから出ており、blog記事も公開されています。概要がコンパクトにまとまっており、読みやすいです。概要だけ知りたい方にはおすすめです。 ai.facebook.com また、DL輪読会にて発表されたスライドもあるので、技術的内容を一通りさらいたい方におすすめです。 [DL輪読会]End-to-End Object D

    自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介 - ほろ酔い開発日誌
    sh19910711
    sh19910711 2024/05/02
    "DETR: 自然言語領域でよく用いられるTransformerを画像認識の領域に持ち込んだ / 物体認識をbboxの集合を予測する問題として捉え直し、それを最適化するような学習方法を提案 / encoderに画像を入れ + bboxの予測" arXiv:2005.12872 2020
  • 夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

    夏のトップカンファレンス論文読み会(2017/09/18)での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

    夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17
    sh19910711
    sh19910711 2024/05/01
    "類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017
  • AnoGANの論文を読んでMNISTの異常検知をしてみた

    はじめに AnoGANというGANを使って正常データと異常データの分類をしよう!!的な論文を読みました.GANはデータを生成するものでは??と思っていましたがこの論文を読みGANはそもそも何をしているのかが理解できました. 開発環境 python3.6 macOS mojave 10.14 識別モデルと生成モデル 一般的に画像を分類しようとしたらVGG16などのCNNを使い画像を分類する識別モデルを作ると思います.しかし医療画像などの正常データと異常データで画像の枚数に偏りがあると識別モデルを作ることは難しいとされています.そもそも識別モデルと生成モデルの違いは、 識別モデル クラスとクラスの識別境界を決める 生成モデル それぞれのクラスがどのような分布をしてるのかを決める といった違いがあります(他にももっとあるとは思いますが).イメージは以下の図のようになります. なんで識別モデルは難

    AnoGANの論文を読んでMNISTの異常検知をしてみた
    sh19910711
    sh19910711 2024/04/24
    "AnoGAN: GANを使って正常データと異常データの分類 / 生成モデルではそれぞれクラスの分布を求める / 正常データの分布に従わないデータは全て異常であるとすれば正常と異常に2値分類はできそう" arXiv:1703.05921 2018
  • Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介!

    Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介! 2021.01.10 レポート 学術研究, 画像処理 はじめに FacebookのAIリサーチチームから、画像処理にTransformerを利用して効率化を目指した新たなモデル「Data-efficient image Transformers (DeiT)」が発表されたので、簡単にご紹介します。 ●論文 Training data-efficient image transformers & distillation through attention https://arxiv.org/abs/2012.12877 ●Facebook AI Blog Data-efficient image Transformers: A promising new technique for ima

    Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹介!
    sh19910711
    sh19910711 2024/04/23
    "DeiT; Data-efficient image Transformers: 蒸留が行えるようにTransformerアーキテクチャを修正 + 蒸留用のトークン(変換された画像データに沿う形でネットワーク内で学習されるベクトル)が導入" arXiv:2012.12877 2021
  • 【論文読み】画像をグラフ構造として特徴抽出するVisionGNN - Qiita

    以下の論文の内容をまとめた。 Vision GNN: An Image is Worth Graph of Nodes 2022/06 https://arxiv.org/abs/2206.00272 Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu パッチ化した画像でグラフを構築し、グラフニューラルネットワークで特徴抽出、画像分類や物体検出タスクに利用する。TransformerやMLPを使った画像処理の研究とコンセプトは似ている。 まとめ 前提/課題 CNN, transformer, MLP, 等を利用してコンピュータビジョンモデルが改善されている 画像中の物体は通常、形状が不規則で四角形ではないため、ResNetやViTなどの従来のネットワークで一般的に使われているグリッドやシーケンス構造は、冗長で柔軟性がなく、処理しに

    【論文読み】画像をグラフ構造として特徴抽出するVisionGNN - Qiita
    sh19910711
    sh19910711 2024/04/17
    "VisionGNN: 画像をノードと見なせるいくつかのパッチに分割し、近傍のパッチを連結してグラフを構成 + GNNで特徴抽出、画像分類や物体検出 / 深層部では中心ノードの近傍はより意味的" arXiv:2206.00272 2022
  • irisで試す相互情報量の最大化による教師なし学習手法IIC - Qiita

    概要 実験結果のファイルをGitHubに保存しています 概要 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習することで画像のクラスタリングを行えるとのこと。 つまり、画像に対して事前のアノテーション(ラベリング)作業不要でクラスタリングが可能 詳細はarxiv読んでください。 Invariant Information Clustering for Unsupervised Image Classification and Segmentation(arxiv) xu-ji/IIC (家Gitリポジトリ) 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場! (日語解説) RuABraun/phone-clustering (比較的シンプルな実装例Gitリポジトリ) MNISTはいろんなひとが実装しているので、 画像ではなく、もっと

    irisで試す相互情報量の最大化による教師なし学習手法IIC - Qiita
    sh19910711
    sh19910711 2024/04/05
    "IIC: 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習 + 画像に対して事前のアノテーション作業不要でクラスタリング / バッチ正規化を利用しないと学習が進まない" arXiv:1807.06653 2020
  • 1