タグ

*algorithmとcvに関するsh19910711のブックマーク (138)

  • [論文紹介] 最小経路法とCNNを統合したPath-CNN - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 論文について Progressive Minimal Path Method with Embedded CNN Wei Liao, CVPR, 2022 概要 管状構造のセグメンテーションにおいて、最小経路法にCNNを組み込んだPath-CNNを提案し、中心線とセグメンテーションマスクを生成。 管状構造のセグメンテーションにおいて有望な手法であることがU-Netと比較して示された。 Related Work Image futures 最小経路法では、画像ヘッシアンをはじめとして人力で調整された特徴を用いて管状構造を識別するが、このよ

    [論文紹介] 最小経路法とCNNを統合したPath-CNN - Qiita
    sh19910711
    sh19910711 2025/06/14
    2024 / "Path-CNN: 経路に基づいた動的な特徴 + ダイクストラアルゴリズムと上の動的特徴を組み合わせ / 都市や郊外以外の環境・河川にも適用でき、中心線のアノテーションのみで2値セグメンテーション"
  • pythonの機械学習を用いた衛星画像による土地被覆部類 - Qiita

    import pandas as pd import numpy as np import rasterio import geopandas as gpd import matplotlib.pyplot as plt import optuna import statistics from sklearn.feature_selection import SelectKBest, f_classif from rasterstats import point_query from sklearn.model_selection import StratifiedKFold, cross_val_score from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier from

    pythonの機械学習を用いた衛星画像による土地被覆部類 - Qiita
    sh19910711
    sh19910711 2025/06/14
    "QGISを用いて点地物を作成し、その地点のピクセルの値を取得 / 各土地被覆と特徴量の関係を分散分析 (ANOVA)を実施してデータの中身を確認 / TCWを入力にした方が針葉樹林と広葉樹の分類が上手くできてそう"
  • Grounding DINOのファインチューニング(追加学習)の仕方

    Grounding DINO とは Grounding DINOとは、物体検出と視覚言語統合のモデルで、特にテキスト条件付き物体検出に強みを持つモデルです。 具体的には、Grounding DINOは自然言語のテキストを入力として受け取り、そのテキストに関連するオブジェクトを画像の中で検出できる機能を持っています。 これにより、従来の物体検出モデルがラベルやカテゴリに基づいて検出を行うのに対し、Grounding DINOはより柔軟で、事前定義されていないカテゴリでもテキストを使って検出が可能です。 この記事を読んでできるようになること Grounding DINOは、訓練を行わなくても利用できるゼロショットモデルとして優れた性能を発揮しますが、航空画像のような特定の領域では物体検出が苦手な場合があります。 記事では、像のデータセットを使用して、Grounding DINOを自分のデータ

    Grounding DINOのファインチューニング(追加学習)の仕方
    sh19910711
    sh19910711 2025/06/14
    2024 / "テキスト条件付き物体検出に強み / 事前定義されていないカテゴリでもテキストを使って検出 / 自然言語のテキストを入力として受け取り、そのテキストに関連するオブジェクトを画像の中で検出できる"
  • MetaのWatermark Anything Modelの論文を読み解く - stMind

    arxiv.org Metaが画像電子透かし技術に関する論文を発表しました。MetaのAnything Modelといえば、Segment Anything Modelがありますが、今回の論文はWatermark Anything Model。一体どのような技術なのか?論文の内容をまとめてみました。 Introのまとめ 画像電子透かし技術は、人間の目には見えない形で画像に情報を埋め込む技術です。従来は著作権保護などを目的としていましたが、近年のAI生成画像の普及に伴い、その用途は大きく変化しています。 ホワイトハウスの行政命令やEUのAI法など、各国政府はAI生成コンテンツの識別を容易にするための規制を導入しており、電子透かしはそのための重要な手段として注目されています。 しかし、従来の電子透かし技術は、画像の一部を切り貼りする「スプライシング」などの操作に対して脆弱です。例えば、電子透か

    MetaのWatermark Anything Modelの論文を読み解く - stMind
    sh19910711
    sh19910711 2025/06/07
    2024 / "電子透かしをセグメンテーションタスクとして再定義 / 画像全体ではなくピクセルごとに電子透かしの有無を判断し、埋め込まれたメッセージを抽出 / より人間の視覚システムに合わせた、自然で目立たない透かし"
  • DeepLabV3を使った商品棚のSemantic Segmenation - Safie Engineers' Blog!

    こんにちは。セーフィーで画像認識エンジニアをやっている柏木です。 今回はセーフィーで行ったPoC (Proof of Concept) の一つである、商品棚のSemantic Segmentationについて紹介いたします! 背景と課題 Semantic Segmentation DeepLabV3 データセットとアノテーション MMSegmentationを使った学習 データセットClassの作成 データセットConfigの作成 学習・テストConfigの作成 環境 学習 評価結果 終わりに 背景と課題 大手スーパーマーケット様より、商品棚の欠品状況を解析したいとのお話がありました。欠品の状況が解析できれば、品出しのタイミングを最適化し、機会損失を削減することができます。イメージングチームではこれらの課題を解決すべく、PoCを行ってみることとしました! こちらが実際の商品棚の写真になりま

    DeepLabV3を使った商品棚のSemantic Segmenation - Safie Engineers' Blog!
    sh19910711
    sh19910711 2025/05/20
    2023 / "DeepLabV3: Googleが2017年に発表 + Atrous畳み込みを直列に何層も重ね、またAtrous rateを変えて並列に繋げた / MMSegmentation: DeepLabV3に限らず多くのモデルが実装されており、バックボーンも豊富"
  • GENIAC第2期成果/データグリッド:汎用画像生成基盤モデルの軽量化のためのTransformersベースLDM—LocalDiT—の開発

    データ前処理: 元画像の中央を基準に1:1比率でクロップし、各解像度にリサイズしました。この処理によりアスペクト比の一貫性を保ちつつ、重要な被写体を中心に維持することができました。 効率的なデータパイプライン: WebDatasetフォーマットを採用し、NVIDIA DALIを使用した高速データローディングパイプラインを構築しました。これにより、I/Oボトルネックを最小限に抑え、GPUの稼働率を向上させることができました。 ただし、全解像度のデータを個別に保存する方式を採用したため、ディスク容量の不足や、データ移行に多大な時間を要するなどの課題も生じました。今後の改善点として、最高解像度(1Kや2K)のデータセットのみを保存し、学習時に動的にリサイズする戦略も検討価値があると考えています。 学習過程における特筆すべき観察点 学習過程で以下のような興味深い現象が観察されました: データ品質の

    GENIAC第2期成果/データグリッド:汎用画像生成基盤モデルの軽量化のためのTransformersベースLDM—LocalDiT—の開発
    sh19910711
    sh19910711 2025/05/20
    "LocalDiT: PixArt-αをベースとした0.52Bパラメータの画像生成Diffusion Transformerモデル / 従来のグローバル注意機構に代わりに局所的注意機構(Local Attention)を導入"
  • Mip-NeRF ICCV2021輪読会スライド

    sh19910711
    sh19910711 2025/05/17
    2021 / "NeRFの学習データは基本的に同じスケールの画像 / 学習データと異なる距離でのレンダリングでは精度が劣化 / 近くの描画:ぼやける + 遠くの描画:エイリアス"
  • DeepLearningを用いた超解像手法/DRCNの実装 - Qiita

    概要 深層学習を用いた、単一画像における超解像手法であるDRCNの実装したので、それのまとめの記事です。 Python + Tensorflow(Keras)で実装を行いました。 論文では長時間学習させているみたいですけど、今回は凄く控えめな規模で行っているので、ほぼ変化はありません... この論文は、CVPR2016で採択された論文で、以前実装したVDSRと同じ著者です。 同時期に2も論文を執筆していたそうです... 凄い... 今回紹介するコードはGithubにも載せています。 学習済みモデルは容量の関係でアップロードできませんでした... 1. 超解像のおさらい 超解像について簡単に説明をします。 超解像とは解像度の低い画像に対して、解像度を向上させる技術のことです。 ここでいう解像度が低いとは、画素数が少なかったり、高周波成分(輪郭などの鮮鋭な部分を表す成分)がないような画像のこ

    DeepLearningを用いた超解像手法/DRCNの実装 - Qiita
    sh19910711
    sh19910711 2025/05/15
    2021 / "DRCN: リカーシブなモデル + 同じ畳み込み層を何度も繰り返し使用することで重みの共有 / 同じ畳み込み層を繰り返し利用するので、パラメータ数は控えめ"
  • 【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features

    2. ©2018 ARISE analytics 2 概要 タイトル: Deep Clustering for Unsupervised Learning of Visual Features 著者: Mathilde Caron, Piotr Bojanowski, Armand Joulin, Matthijs Douze https://arxiv.org/abs/1807.05520 一言で言うと すごい点 感想 CNNで特徴抽出してK-meansを繰り返す 教師なしでもCNNで特徴抽出ができる DeepClusterを使って教師なしで pre-training → 少量の画像で fine-tuning というやり方は現実の問題でも使えそう モチベーション 学習データへのラベルづけが大変なので教師なしでやりたい

    【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
    sh19910711
    sh19910711 2025/05/13
    2019 / "DeepClusterを使って教師なしてpre-training + 少量の画像でfine-tuning / Xie: Encoder/Decoderで学習した表現についてクラスタのKL情報量を最小にする"
  • YOTO(YOU ONLY TRAIN ONCE)を不均衡データ対策の損失関数に適用して画像分類してみた - statsuのblog

    この記事は、YOTO(YOU ONLY TRAIN ONCE)の雰囲気を掴むことを目的として、不均衡データ対策の損失関数にYOTOを適用して画像分類してみた記録です。 YOTOを使うことで、1つのモデルでMajorクラスの性能が良いモデル or Minorクラスの性能が良いモデルをテスト時に選択できました。 検証に使ったコードはgithubにあります。 GitHub - statsu1990/yoto_class_balanced_loss: Unofficial implementation of YOTO (You Only Train Once) applied to Class balanced loss 記事の概要 YOTO(YOU ONLY TRAIN ONCE)について ICLR2020でGoogleから発表されたDeep learningに関する技術。 YOTOを適用したモ

    YOTO(YOU ONLY TRAIN ONCE)を不均衡データ対策の損失関数に適用して画像分類してみた - statsuのblog
    sh19910711
    sh19910711 2025/05/13
    2020 / "YOTO: Majorクラスの性能が良いモデル or Minorクラスの性能が良いモデルをテスト時に選択 / YOTOとClass Balanced Lossを組み合わせ + 損失関数を工夫することでMinorクラスの推定精度を上げる"
  • Vision-Language Modelを活用した「見た目が近い商品」レコメンド改善の取り組み | メルカリエンジニアリング

    こんにちは、メルカリのAI/LLMチームで機械学習エンジニアをしているarr0wとshoです! テックブログでは、Vision-Language Modelの一つであるSigLIP [1]を、メルカリの商品データ(Image-Text Pairs)でファインチューニングし、メルカリの商品画像Embeddingの性能を大幅に改善したプロジェクトについて紹介します。 今回作成したSigLIPの性能を評価するために、商品詳細ページの「見た目が近い商品」のレコメンド機能でA/Bテストを実施しました。 この「見た目が近い商品」のレコメンド機能は、社内ではSimilar Looksと呼ばれています。作成したモデルをSimilar Looksの類似画像検索に適用し、既存モデルとの比較のためのA/Bテストを行いました。 そして、その結果として、主要なKPIにおいて以下のような顕著な改善が確認できました。

    Vision-Language Modelを活用した「見た目が近い商品」レコメンド改善の取り組み | メルカリエンジニアリング
    sh19910711
    sh19910711 2025/05/13
    2024 / "SigLIP: Vision-Language Modelの一つ + CLIPで使用されている従来のSoftmax Lossを、Sigmoid Lossに置き換えて事前学習"
  • Class-Attention in Image Transformers (CaiT) 途中からClass Tokenを追加するモデル解説 - Qiita

    原論文 Going deeper with Image Transformers https://arxiv.org/abs/2103.17239 関連研究 Vison Transformerの解説 https://qiita.com/wakanomi/items/55bba80338615c7cce73 結論 ViTの問題点としてself-attentionの類似度計算で特徴の全く異なるクラストークンも含めて処理を行うと,そのクラストークンが悪さをしてしまい精度低下につながる可能性がある.この問題をクラストークンを途中から追加する方法で解決する. 概要 Class-Attention in Image Transformers (CaiT) とはViTの派生モデルで,学習可能な対角行列パラメータを加える.これをLayerScaleと呼ぶ.また,Class Tokenを最初に追加するのでは

    Class-Attention in Image Transformers (CaiT) 途中からClass Tokenを追加するモデル解説 - Qiita
    sh19910711
    sh19910711 2025/04/29
    2023 / "self-attentionの類似度計算で特徴の全く異なるクラストークンも含めて処理を行うと,そのクラストークンが悪さをしてしまい精度低下につながる可能性"
  • [DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)

    [DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)

    [DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
    sh19910711
    sh19910711 2025/04/28
    2019 / "SoftTriple: tripletのサンプルをせずに距離学習を可能に + Softmaxを応用 + Visual categorizationにおいてSOTA / 分類問題を解くことで結果的に距離学習もできてしまう"
  • 微分可能レンダリング (CVIM研究会 チュートリアル)

    https://docs.google.com/presentation/d/1nbyUBucCTFP2-sVLFeo2gP76L3EJTImMFXLmV7OifxI/edit?usp=sharing

    微分可能レンダリング (CVIM研究会 チュートリアル)
    sh19910711
    sh19910711 2025/04/26
    2022 / "画像から3Dモデルを作りたい / カメラ姿勢は既知であると仮定 / PyTorch3D: Facebookの3Dビジョンの研究者らが開発 + ドキュメントやチュートリアルも充実"
  • [CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

    7/23関東CV勉強会の資料です

    [CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化
    sh19910711
    sh19910711 2025/04/24
    2023 / "BEV: 車両の周囲をわかりやすく簡潔に表す方法 + 元々はLidarを用いて作成されていたが近年はカメラベース手法の開発が活発 / BevFormer (ECCV2022): temporarl self-attentionにより時系列情報を考慮"
  • [CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving

    2023/7/23に開催されたCV勉強会@関東 CVPR2023の資料です。 論文はCVPR2023のBest paperである「UniAD: Planning-oriented Autonomous Driving」です。 Paper: https://openaccess.thecvf.com/…

    [CV勉強会@関東 CVPR2023] UniAD: Planning-oriented Autonomous Driving
    sh19910711
    sh19910711 2025/04/24
    2023 / "Negative Transfer: マルチタスク学習のデメリット + タスク同士が良くない影響を与えて精度が悪化する現象 / Perceptionを先に学習することで収束が速くなる"
  • Instant NeRF の心臓、Multiresolution Hash Encoding をシンプルに実装しつつ2次元画像で試してみる - OPTiM TECH BLOG

    こんにちは、プラットフォーム事業部の河内です。最近は新オフィスを堪能しています。 さて、今年の 3 月に NVIDIA から Instant NeRF という手法が発表されました。 blogs.nvidia.co.jp NeRF がどんなものなのか、Instant NeRF が今までの手法と比べ何がすごいのかについては上記の記事でおおまかに掴めるかと思いますが、中身が気になるところです。 NVIDIA の記事中で Tiny CUDA Neural Networks ライブラリを使用とあるのでリポジトリを見てみると、どうやら TensorFlow や PyTorch を利用したものではなく、Instant NeRF の根幹となる手法のためにチューニングされたフレームワークのようです。 github.com リポジトリの README では 2 つの手法とその論文が引用されており、ひとつは "

    Instant NeRF の心臓、Multiresolution Hash Encoding をシンプルに実装しつつ2次元画像で試してみる - OPTiM TECH BLOG
    sh19910711
    sh19910711 2025/04/23
    2022 / "MLP では位置ベクトル (低周波な信号) から色と密度 (はるかに高周波な信号) への変換を学習することが難しい / ハッシュ関数の性質なのか、ある種のフィルタのように機能しているように見え"
  • ラベルなしデータを用いた Dense Tracking の研究事例 / Learning Dense Tracking from Unlabeled Videos

    社内勉強会での発表資料です。 ラベルなし動画を用いて画素レベルでのトラッキング(dense tracking)を学習する研究事例を紹介します。 近年では、応用先である Video Object Segmentation において教師あり手法に匹敵する性能を持った教師なし手法が提案されつつあり…

    ラベルなしデータを用いた Dense Tracking の研究事例 / Learning Dense Tracking from Unlabeled Videos
    sh19910711
    sh19910711 2025/04/22
    2020 / "Dense Tracking: 1フレーム目で与えられた画素が次フレーム以降どこに移動したのかを特定 / Video colorization: 入力の情報を欠損させる + 物体の形状変化に頑健だが、色の大きな変化に対応できる枠組みとなっていない"
  • 継続学習の物体検出への応用

    はじめに こんにちは、DSチームの川﨑です。 今回は、物体検出手法に対して継続学習という技術を適用する研究分野の紹介記事になります。継続学習は近年急激に発展を遂げる基盤モデルとも関係があり、下流タスクへのチューニングに伴う精度劣化を避けるための手法として組み合わせるなど、今後も発展が想定される研究分野と考えられます。 ぜひ、ご一読いただけると幸いです。 流れとしては、継続学習の概観に触れたのち、継続学習を物体検出に応用した分野のレビューと研究例を紹介します。 なお、記事は主に以下の2つのサーベイ論文を参考に執筆しています。 継続学習 A Comprehensive Survey of Continual Learning: Theory, Method and Application 物体検出における継続学習 (CLOD) Continual Object Detection: A re

    継続学習の物体検出への応用
    sh19910711
    sh19910711 2025/04/22
    2023 / "破局的忘却: 一度モデルを学習させたあとに分布が異なる新タスクに対して追加学習させると、過去タスクに対する性能が大幅に低下する / 継続学習: 破局的忘却を軽減させながら新タスクに適応したモデルを構築"
  • 実は強い 非ViTな画像認識モデル

    社内のCV輪講で使用した資料です。 CNNを構造の中心とした画像認識モデルアーキテクチャについて、近年登場したものを紹介しました。 以下スライド中の参考文献のリンク [1] https://arxiv.org/abs/2103.07579 [2] https://arxiv.org/abs…

    実は強い 非ViTな画像認識モデル
    sh19910711
    sh19910711 2025/03/05
    "画像認識: CNNを構造の中心としたモデルアーキテクチャについても研究が続けられており、精度もViTベースのモデルに比肩するようになってきている / ConvNeXt: CNNとTransformerのアーキテクチャの違いを調査"