タグ

cvとconvに関するsh19910711のブックマーク (9)

  • Semantic segmentation 振り返り

    論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction

    Semantic segmentation 振り返り
    sh19910711
    sh19910711 2024/06/14
    "CNN: 深い層にいくにつれて見る範囲が広がり、高レベルな特徴が抽出 + 解像度が失われていく / 似ているクラスを正確に分類するためにはglobalな特徴(context)が重要 + 輪郭を正確にsegmentationするにはlocalな特徴が重要" 2019
  • 画像データの切り抜きをCNNとopenCVで自動化する - ゼロから始める機械学習

    概要 画像分類では認識したい対象だけのクリーンな画像が欲しいですが、提供データには不要なオブジェクトが多く写ります。また、分類対象が小さくしか写っていないこともあります。 大量の画像データを手動で切り抜くには時間がかかるので、必要部分のみ切り抜く処理をCNNopenCVで教師データありで自動化します。 目的 Kaggleのintel子宮頚部癌スクリーニングコンペに参加し、22位でした。 Intel & MobileODT Cervical Cancer Screening | Kaggle このコンペでは4000pxを超える高解像度のデータが8000枚ほど提供されました。 画像は専用の医療機器で撮ったものからデジカメで撮ったようなものまで、対象の形状や色も違い、医療器具の映り込みもありました。 CNNでの画像分類はメモリの制約上、224pxや299pxなど縮小したものを利用します。 認識

    画像データの切り抜きをCNNとopenCVで自動化する - ゼロから始める機械学習
    sh19910711
    sh19910711 2024/06/08
    "画像分類では認識したい対象だけのクリーンな画像が欲しい / ResNetで特徴を抽出して始点のx,yとlengthを推測する / 縮小した画像でx,y,lengthを求め、元画像と縮小画像の比率に応じてopenCVで切り抜けば完了" 2017
  • ConvLLaVAを日本語LLMで学習してみた - Qiita

    はじめに Image EncoderにCNN系のモデルであるConvNeXtを使用した、ConvLLaVAが提案されました。 記事はConvLLaVAを使って768x768の画像が入力可能な日語VLMを学習してみました。 また、学習したモデルを日語ベンチマークを使用して他のモデルとの比較も行いました。 モデルの重みは以下で公開しています。 ConvLLaVAについて ConvLLaVAはConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Modelsで提案された手法です。 前述したとおりImage EncoderにConvNeXtを使用しているのが特徴ですが他にも以下の2つの工夫点があります。 工夫点1 ConvNeXtにStage 5を追加することで解像度が高い画像を入力しても画像トークン

    ConvLLaVAを日本語LLMで学習してみた - Qiita
    sh19910711
    sh19910711 2024/06/08
    "ConvLLaVA: EncoderにCNN系のモデルであるConvNeXtを使用 + 解像度が高い画像を入力しても画像トークンが少なく ~ / 学習が3段階で行われ + 2段階目では高解像度の画像にも対応できるようにImage Encoderの学習"
  • 【論文】Deformable Convolutional Networks (2017) - Qiita

    [1703.06211] Deformable Convolutional Networks メタ情報 ICCV 2017 oral paper Microsoft Research Asia 著者実装 日語による解説 (見つけられた範囲で) Deformable Convolutional Networks Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― 機械学習論文読みメモ_108 - Qiita 概要 質的に、CNN はその構造上、幾何的な 1 変換処理に制限されている その欠点を克服するために、 deformable convolution と deformable RoI pooling を提案する 物体検出と semantic segmentation のタスクで結果を検証する 導入

    【論文】Deformable Convolutional Networks (2017) - Qiita
    sh19910711
    sh19910711 2024/06/06
    "CNN: 畳み込みも pooling も固定された位置に対する処理なので、幾何的な変形に対して弱い / 畳み込みに学習可能な2Dオフセットを導入 / 学習済みモデルに deformable の offset field を入れて追加で学習 + ただし細々した調整" 2018
  • Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita

    はじめに 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した画像認識モデルMLP-Mixerというモデルが提案されました。 今回はこのMLP-Mixerについて解説したいと思います。 論文データ arxiv :「MLP-Mixer: An all-MLP Architecture for Vision」 [Submitted on 23 Mar 2021 (v1), last revised 30 Mar 2021 (this version, v2)] 論文の概要 画像パッチに分割しそれらのパッチを、空間方向及びチャンネル方向に関して多層パーセプトロンで変換(mix)させるモデルMLP-Mixerを提案した このMLP-Mixerは畳み込みやAttentionを使用していないがSOTAと比較しても見劣りしない精度を誇り、

    Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita
    sh19910711
    sh19910711 2024/06/06
    "MLP-Mixer: 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した / パッチを空間方向及びチャンネル方向に関して多層パーセプトロンで変換(mix)させる" 2021
  • pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集

    概要 googlenetやmobilenet等、最近のCNNモデルでは、当たり前の様にpointwise convolution(1x1の畳み込み)を使って次元数を調整する・・・等の説明がなされるけれど、1x1で畳み込んでも結局意味ないじゃん?と最初理解に苦しんだので、自分なりにまとめておく。 「1x1の畳み込み」という言葉だけ聞くと、何の意味もないフィルタの様に思えてしまうけれど、実際は1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応している。以下の図の様な細長いフォルタを使って、入力層から重要そうな部分を選別して取り出し、一つの層にまとめている。この処理を出力層分(HxWxLafter回)繰り返すことによって、層数を簡単に任意の値にできるという点が最大のメリット。 以下に、パラメータ、入出力サイズ、メリットについても自分なりの理解をまとめる。 #自分なりの理解なので

    pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集
    sh19910711
    sh19910711 2024/05/25
    "pointwise convolution: 次元数を調整 + 1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応 / CPUとGPUの速度差が比較的小さい / 出力にrelu等を与えることによって、非線形性を増すことができる" 2017
  • スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装Python機械学習MachineLearningDeepLearningPyTorch 2018/11/27にarXivに投稿された論文「Deformable ConvNets v2: More Deformable, Better Results」で、スケールと形状を学習可能なConvolutionであるModulated Deformable Convolutionが提案されています。おもしろそうな手法だったのでPyTorchで実装してみました。 ソースコードはこちら https://github.com/4uiiurz1/pytorch-deform-conv-v2 Modulated Deformable Co

    スケールと形状を学習可能なConvolution: Modulated Deformable Convolution (Deformable ConvNets v2)を実装 - Qiita
    sh19910711
    sh19910711 2024/05/22
    "segmentationやobject detectionのようなタスクでは、様々なスケールと形状の物体をカバーするようなReceptive Fieldを持つネットワークを設計する必要 / modulation: 入力画素ごとの学習可能な重み(0~1)" arXiv:1811.11168 2018
  • 第2回:画像でないデータを画像として処理する

    AI技術チームの石川です。今回は、我々が発表した論文で使ったアイディアの一つである、「画像でないデータを画像として扱う」ことで画像分析用の手法を活用するという考え方について紹介したいと思います。画像認識や画像処理のために開発された手法やツールを活用することで、画像でないデータの分析を簡単に、高精度に行うことができる場合があります。ビジネスにおいては、以下のような場面で活用できる可能性があります。 製造業、商業、公共交通機関等での音声による異常検知 時系列の金融データ分析 画像データとCNN 画像認識はAI機械学習の代表的なタスクのひとつであり、幅広く研究されています。ディープラーニングが注目されるきっかけの一つとなった画像認識コンペティションILSVRCはImageNetという大規模な写真データセットの分類精度を競うものでした。 ディープラーニングによる画像認識において、優れた性能を達成

    第2回:画像でないデータを画像として処理する
    sh19910711
    sh19910711 2024/05/05
    "「画像でないデータを画像として扱う」ことで画像分析用の手法を活用する / 音声データ以外にも、コンピュータ上のファイルのバイナリ配列を2次元配列に変換し、CNNでマルウェアを検出するという研究" 2021
  • 【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita

    はじめに 記事は、2022年3月に修士課程を修了する私が学部4年から3年間で学んできた知識について経験的なイメージ(偏見)を携えて、修論とは別になんとなくまとめてみようとするものです。 記事は理論メインになります。 実装のプログラミングは多少話題にしてますが、そちらをしっかり学びたい方にはそれほど役に立たないと思います。ご了承ください。 一応、以下のような人をターゲットとして書いています。 新たに学び始める人 ざっくり分野の概要を知りたい人 知識のない人向けに講演などする予定があり参考にしたい人 とにかく何でもいいから読み物がほしい人 現在、入門書籍や入門記事はたくさんありますが、持論・体験・最新の研究についても触れながら書くつもりなので、少しでも良いなと思っていただければと考えています。 数学的な話も少し出ますが、中学・高校数学レベルがわかれば大丈夫です。 誤字脱字・間違った知識の報

    【令和最新版】画像分野のDeep Learning (Computer Vision) 初心者向け資料 - Qiita
    sh19910711
    sh19910711 2024/05/02
    "Convolution: 瞬時に理解できるように説明するのはサッカー知らない人にオフサイドを説明するぐらい難しい / Convolutionの層やAttentionをとにかく追加して接続してで論文が書けていた時代が落ち着きを見せてきており" 2022
  • 1