タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとcvとconvに関するsh19910711のブックマーク (10)

  • 論文メモ: Conditional PixelCNN - PixelCNNベースの条件付き画像生成モデル

    論文 Conditional Image Generation with PixelCNN Decoders 表記 LL: log likelihood 概要 PixelCNNをベースにした条件付き生成モデルを提案する。モデルに与えるコンテクストは任意のラベルやタグ、埋め込みベクトルを指定できる。例えばImageNetのクラスラベルをコンテクストに与えた場合は動物、物体、風景、構造物などのリアルかつ多様な画像を生成する。また、未知の特定の人物の埋め込みベクトルを与えた場合はその人物の様々な表情、ポーズ、照明条件の画像を生成する。また、提案モデルをオートエンコーダのデコーダとして用いた場合、高精細かつ多様な画像を生成する。さらに、提案手法はPixelCNNのLLを改善し、PixelRNNと同等のLLのモデルをPixelRNNの半分以下の時間で学習することに成功した。 研究分野における位置付け

    論文メモ: Conditional PixelCNN - PixelCNNベースの条件付き画像生成モデル
    sh19910711
    sh19910711 2025/08/11
    2022 / "PixelCNNは層を深くしても右側に参照されないピクセル(=盲点)がある / これを克服するために、提案手法は垂直方向と水平方向の2つのCNNに分割"
  • 実は強い 非ViTな画像認識モデル

    社内のCV輪講で使用した資料です。 CNNを構造の中心とした画像認識モデルアーキテクチャについて、近年登場したものを紹介しました。 以下スライド中の参考文献のリンク [1] https://arxiv.org/abs/2103.07579 [2] https://arxiv.org/abs…

    実は強い 非ViTな画像認識モデル
    sh19910711
    sh19910711 2025/03/05
    "画像認識: CNNを構造の中心としたモデルアーキテクチャについても研究が続けられており、精度もViTベースのモデルに比肩するようになってきている / ConvNeXt: CNNとTransformerのアーキテクチャの違いを調査"
  • 画像特徴量抽出モデルの比較:ResNetの進化と他のモデルとの違い

    🟢 はじめに 画像の特徴量を抽出する際に、最もよく使われるのが**CNN(畳み込みニューラルネットワーク)**です。その中でも ResNet(Residual Networks) は、さまざまなバージョンがあり、用途に応じて選択されます。 また、ResNet以外にも、EfficientNet・VGG・Inception・MobileNet など、画像の特徴量を抽出するための強力なモデルが存在します。 今回は、ResNetの各バージョンの違いを徹底比較し、他の画像特徴量抽出モデルとの違いを詳しく解説します。 📌 1. ResNetとは? 🔹 残差学習(Residual Learning)とは? ResNet(Residual Network)は、**「層を深くしても学習が進む」**という特徴を持つニューラルネットワークです。 従来のCNN(VGGなど)では、層を深くすると勾配消失が発生

    画像特徴量抽出モデルの比較:ResNetの進化と他のモデルとの違い
    sh19910711
    sh19910711 2025/03/05
    "従来のCNN(VGGなど)では、層を深くすると勾配消失が発生し、学習が進みにくくなる という課題 / ResNetは、この問題を解決するためにスキップ接続(Skip Connection)を導入 / 「入力 + 出力」 を足し合わせる"
  • Semantic segmentation 振り返り

    Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation (ICCV2019 oral)

    Semantic segmentation 振り返り
    sh19910711
    sh19910711 2024/06/14
    "CNN: 深い層にいくにつれて見る範囲が広がり、高レベルな特徴が抽出 + 解像度が失われていく / 似ているクラスを正確に分類するためにはglobalな特徴(context)が重要 + 輪郭を正確にsegmentationするにはlocalな特徴が重要" 2019
  • 【論文】Deformable Convolutional Networks (2017) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? [1703.06211] Deformable Convolutional Networks メタ情報 ICCV 2017 oral paper Microsoft Research Asia 著者実装 日語による解説 (見つけられた範囲で) Deformable Convolutional Networks Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― 機械学習論文読みメモ_108 - Qiita 概要 質的に、CNN はその構造上、幾何

    【論文】Deformable Convolutional Networks (2017) - Qiita
    sh19910711
    sh19910711 2024/06/06
    "CNN: 畳み込みも pooling も固定された位置に対する処理なので、幾何的な変形に対して弱い / 畳み込みに学習可能な2Dオフセットを導入 / 学習済みモデルに deformable の offset field を入れて追加で学習 + ただし細々した調整" 2018
  • Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した画像認識モデルMLP-Mixerというモデルが提案されました。 今回はこのMLP-Mixerについて解説したいと思います。 論文データ arxiv :「MLP-Mixer: An all-MLP Architecture for Vision」 [Submitted on 23 Mar 2021 (v1), last revised 30 Mar 2021 (this version, v2)] 論文の概要 画

    Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita
    sh19910711
    sh19910711 2024/06/06
    "MLP-Mixer: 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した / パッチを空間方向及びチャンネル方向に関して多層パーセプトロンで変換(mix)させる" 2021
  • pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集

    概要 googlenetやmobilenet等、最近のCNNモデルでは、当たり前の様にpointwise convolution(1x1の畳み込み)を使って次元数を調整する・・・等の説明がなされるけれど、1x1で畳み込んでも結局意味ないじゃん?と最初理解に苦しんだので、自分なりにまとめておく。 「1x1の畳み込み」という言葉だけ聞くと、何の意味もないフィルタの様に思えてしまうけれど、実際は1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応している。以下の図の様な細長いフォルタを使って、入力層から重要そうな部分を選別して取り出し、一つの層にまとめている。この処理を出力層分(HxWxLafter回)繰り返すことによって、層数を簡単に任意の値にできるという点が最大のメリット。 以下に、パラメータ、入出力サイズ、メリットについても自分なりの理解をまとめる。 #自分なりの理解なので

    pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集
    sh19910711
    sh19910711 2024/05/25
    "pointwise convolution: 次元数を調整 + 1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応 / CPUとGPUの速度差が比較的小さい / 出力にrelu等を与えることによって、非線形性を増すことができる" 2017
  • スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita

    2018/11/27にarXivに投稿された論文「Deformable ConvNets v2: More Deformable, Better Results」で、スケールと形状を学習可能なConvolutionであるModulated Deformable Convolutionが提案されています。おもしろそうな手法だったのでPyTorchで実装してみました。 ソースコードはこちら https://github.com/4uiiurz1/pytorch-deform-conv-v2 Modulated Deformable ConvolutionはDeformable Convolutional Networksで提案されているDeformable Convolutionの改良版ですので、初めにDeformable Convolutonについて簡単に説明します。 Deformable

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita
    sh19910711
    sh19910711 2024/05/22
    "segmentationやobject detectionのようなタスクでは、様々なスケールと形状の物体をカバーするようなReceptive Fieldを持つネットワークを設計する必要 / modulation: 入力画素ごとの学習可能な重み(0~1)" arXiv:1811.11168 2018
  • 第2回:画像でないデータを画像として処理する

    AI技術チームの石川です。今回は、我々が発表した論文で使ったアイディアの一つである、「画像でないデータを画像として扱う」ことで画像分析用の手法を活用するという考え方について紹介したいと思います。画像認識や画像処理のために開発された手法やツールを活用することで、画像でないデータの分析を簡単に、高精度に行うことができる場合があります。ビジネスにおいては、以下のような場面で活用できる可能性があります。 製造業、商業、公共交通機関等での音声による異常検知 時系列の金融データ分析 画像データとCNN 画像認識はAI機械学習の代表的なタスクのひとつであり、幅広く研究されています。ディープラーニングが注目されるきっかけの一つとなった画像認識コンペティションILSVRCはImageNetという大規模な写真データセットの分類精度を競うものでした。 ディープラーニングによる画像認識において、優れた性能を達成

    第2回:画像でないデータを画像として処理する
    sh19910711
    sh19910711 2024/05/05
    "「画像でないデータを画像として扱う」ことで画像分析用の手法を活用する / 音声データ以外にも、コンピュータ上のファイルのバイナリ配列を2次元配列に変換し、CNNでマルウェアを検出するという研究" 2021
  • 【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 記事は、2022年3月に修士課程を修了する私が学部4年から3年間で学んできた知識について経験的なイメージ(偏見)を携えて、修論とは別になんとなくまとめてみようとするものです。 記事は理論メインになります。 実装のプログラミングは多少話題にしてますが、そちらをしっかり学びたい方にはそれほど役に立たないと思います。ご了承ください。 一応、以下のような人をターゲットとして書いています。 新たに学び始める人 ざっくり分野の概要を知りたい人 知識のない人向けに講演などする予定があり参考にしたい人 とにかく何でもいいから読み物がほしい

    【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita
    sh19910711
    sh19910711 2024/05/02
    "Convolution: 瞬時に理解できるように説明するのはサッカー知らない人にオフサイドを説明するぐらい難しい / Convolutionの層やAttentionをとにかく追加して接続してで論文が書けていた時代が落ち着きを見せてきており" 2022
  • 1