タグ

*algorithmとcvに関するsh19910711のブックマーク (140)

  • 【異常検知】食品画像を攻略してみる - Qiita

    今回は、実例があまり出てこない品画像を攻略してみたいと思います。(といっても、精度100%は出ていません(^^;) (右端「Padim + YOLOv5」が提案手法) 品画像の難しさ 品画像の検査は、工業製品と違って難しいと言われています。個人的には 見た目に多様性がある 位置が決まっていない が理由だと思っております。 見た目の多様性は、例えばミカンでいうと、色やサイズ、形が様々で、一つとして同じものはありません。つまり、正常品の範囲が広く、正常/異常の境界線があいまいになりがちです。一方、工業製品は多様性が少なく、正常品の範囲が狭いです。このため、正常/異常の境界線がはっきりしています。 二点目、「位置が決まっていない」は、品という特性上、位置が多少ズレることがあります。さらに、2つの品があったとして、2つの位置が入れ替わったとしても正常となることがあります。つまり、位置ベー

    【異常検知】食品画像を攻略してみる - Qiita
    sh19910711
    sh19910711 2024/09/06
    "異常検知においてもデータをよく見るのは大事 / Padimは位置ベースの異常検知手法です。そのため、ミカンとスモモが入れ替わるbreakfast_boxは大の苦手" '22
  • 深層学習を利用した3次元点群の分類を行う際の手順について

    sh19910711
    sh19910711 2024/09/05
    "設備管理: 寸法といった現場でしか確認できなかったデータを遠隔で確認できる + 新たな設備の導入時に既存の設備との干渉の有無を確認ができる / PointNet: ラベリングデータを利用 + 点群では各点に対してラベル付け"
  • 【論文読み】MMMU: A Massive Multi-discipline MultimodalUnderstanding

    先日のCVPR2024で発表されていた新しいマルチモーダルベンチマークMMMU[1][2]の論文を調査しましたのでまとめます。 概要 マルチモーダルモデルを評価する新しいベンチマーク 芸術から光学まで30科目と、11500個の大学レベルのマルチモーダルな質問が用意されてる ChatGPT-4V, Gemini Ultraですら56%, 59%となっている なぜ新しいベンチマークを作る必要があったのか? 既にマルチモーダルのベンチマークは存在しています。 が、オープンソースのCogVLMは以下のベンチマークで90%前後を達成しています。 しかし、ほとんどの既存のマルチモーダルベンチマークは専門知識を伴う高度な推論ではなく、常識や日常知識レベルの問題となっています。 その中でも専門性のあるScienceQAですら多くの質問が初等教育から中学校レベルであり、これからのモデルを評価するには物足りな

    【論文読み】MMMU: A Massive Multi-discipline MultimodalUnderstanding
    sh19910711
    sh19910711 2024/09/05
    "MMMU: マルチモーダルモデルを評価する新しいベンチマーク + 大学の試験、クイズ、教科書から収集 / 既存のマルチモーダルベンチマークは専門知識を伴う高度な推論ではなく、常識や日常知識"
  • 【論文5分まとめ】Ota: Optimal transport assignment for object detection

    この記事は、論文の内容を5分くらいで読めるようにまとめた記事です。そのため、前提となる知識や関連研究に関する説明は大幅に省略しています。 基的には筆者の備忘録ですが、面白そうと思ったら是非ご自身でも読んでみてください。 概要 物体検出モデルにおいて、予測された矩形と真の矩形(gt)の割り当ては、重要な課題の一つである。例えば、RetinaNetであれば、gtとアンカーのIoUが閾値以上であれば、そのアンカーから作られる予測矩形のターゲットとしてgtが割り当てられる。また、FCOSであれば、gtの中心に近い位置やgtの領域に対応する位置から作られる予測矩形にgtを割り当てる。 しかし、このような静的な割り当ては、以下の図のような複数のgtに所属してもよさそうな曖昧な領域の存在の扱いを難しくし、不適切なターゲットによる有害な勾配を生じさせる。 このような問題を回避するために、近年はさまざまな

    【論文5分まとめ】Ota: Optimal transport assignment for object detection
    sh19910711
    sh19910711 2024/08/31
    "物体検出モデルにおいて、予測された矩形と真の矩形(gt)の割り当ては、重要な課題の一つ / OTA: 割り当てを最適輸送問題として捉え + 各予測矩形に対して適切なgtを割り当てるという問題にうまく対応" arXiv:2103.14259 '21
  • MIRU2024参加レポート - ZOZO TECH BLOG

    こんにちは。ZOZO Researchの研究員の古澤・川島・平川、ZOZOのデータサイエンティストの荒木・小林です。2024年8月6日(火)から8月9日(金)にかけて熊で開催された画像の認識・理解シンポジウムMIRU2024に参加しました。この記事では、MIRU2024でのZOZO Research・ZOZOのメンバーの取り組みやMIRU2024の様子について報告します。 目次 目次 MIRU2024 企業展示 全体の動向 招待講演・インタラクティブセッション [IS2-35] The Niau Dataset: A Comprehensive Resource for Fashion Image Recognition [IS2-126] 大規模視覚言語モデルを用いた「似合う」の自動評価法 [IS-2-097] Moon & SpencerのAesthetic Measureを用いたフ

    MIRU2024参加レポート - ZOZO TECH BLOG
    sh19910711
    sh19910711 2024/08/28
    "生成モデルや基盤モデルを活用した研究が多く + トレンドは「当たり前に使う」段階へとシフト / 集合データを扱うネットワークには、入力集合内の要素の並べ替えに対する出力値の不変性など特別な性質が要求" IS3-39
  • 画像の回転などの変換処理が埋め込みベクトルに与える影響を確認してみた | DevelopersIO

    こんちには。 データアナリティクス事業機械学習チームの中村(nokomoro3)です。 今回は小ネタですが、画像の反転や位置の違いが埋め込みベクトルにどの程度影響を与えるのか知りたかったので、記事で試してみたいと思います。 使用する画像 ネコの画像をいらすとやから拝借しました。 こちらに対して、以下のような変換を加えてみます。 サイズ変更 回転 位置替え モノクロ化 そしてネコ以外の画像も比較のため、以下のイヌの画像も使ってみます。 これらの画像データを Titan Multimodal Embeddings で埋め込みベクトルに変換して、コサイン類似度を比較してみようと思います。 埋め込みモデルについて 使用する埋め込みモデルは以下を用います。 Amazon Titan Multimodal Embeddings G1 model - Amazon Bedrock こちらはテキス

    画像の回転などの変換処理が埋め込みベクトルに与える影響を確認してみた | DevelopersIO
    sh19910711
    sh19910711 2024/06/21
    "画像の反転や位置の違いが埋め込みベクトルにどの程度影響を与えるのか / Titan Multimodal Embeddings で埋め込みベクトルに変換して、コサイン類似度を比較 / モノクロ化は意外と差異がなく 0.879 程度"
  • 【ニューラルネットワークの判断根拠抽出】TCAV - ピクセルの重要度から概念の重要度へ - - Qiita

    今回はICML2018に採択された論文,Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)に関してまとめたいと思います。 判断根拠系の手法では基的にどのピクセルが判断に重要であったか?を主眼に置くことが多いですが(この辺とかこの辺),この論文で提案される手法はピクセル単位ではなく人間の考える概念的な観点から重要度を抽出する面白い方法を取っています。(認知心理学とかヒューマンインターフェースとかそう言った観点の研究ではないです。念のため。) 第一著者はニューラルネットの判断根拠抽出手法としてはメジャーなSmoothgradの著者の一人です。所属はGoogle Brainであり,機械学習の判断根拠をまさに研究されている人です。 論文の

    【ニューラルネットワークの判断根拠抽出】TCAV - ピクセルの重要度から概念の重要度へ - - Qiita
    sh19910711
    sh19910711 2024/06/21
    "概念的な観点から重要度を抽出 / ピクセルではなく,「人がいるから」だとか「ATMの文字があるから」だとかそういう説明 / 人間の感覚に近い概念画像(Concept)に対する重要度を定義" arXiv:1711.11279 2019
  • SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜

    拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T] 出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456

    SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
    sh19910711
    sh19910711 2024/06/14
    "Consistency Models: ゼロから学習するのではなく学習済み拡散モデルを利用 / 拡散モデル: これまではU-Netベースが基本だった + Transformerベースが現在は使われてきている + 様々なモダリティで研究されており拡張がしやすい"
  • NeRF-RPN:NeRF上で物体検出する技術

    はじめに こんにちは。ZENKIGEN DSチームに所属しているはまなすです。DeNA AI技術開発部より[1]、業務委託という形で主に深層学習系の開発に携わっています。 今回は、ニューラルネットワークを用いて3次元空間を表現する NeRF という技術に基づいた、立体空間内で物体検出をおこなう手法 NeRF-RPN についてご紹介します。 研究は昨年末に発表されたものですが、今のところ実験結果が限定的であるため、直ちに実応用に展開されているわけではありません。一方で、今回ご紹介するような『NeRFの上に積み重なる手法』は、NeRFを活用する土壌をさらに拡大させる一翼を担っていくことが期待されます。 近年は表現技術としてのNeRFそれ自体の発展が目覚ましいですが、NeRF-RPN は、その上で『なにをするか』を充実させるためのひとつの基礎研究となるでしょう。 ▼ NeRF-RPN はなにを

    NeRF-RPN:NeRF上で物体検出する技術
    sh19910711
    sh19910711 2024/06/14
    "立体空間内で物体検出 + NeRFの上に積み重なる手法 / NeRF: ニューラルネットワークの表現力を高精細で破綻の少ない空間表現に上手く活用 + それを実現するために微分可能で効率的な学習フレームワークを提案" 2023
  • CNNによる画像分類:背景の影響を低減させる正則化 - Qiita

    はじめに CNNを用いた画像分類モデルを構築するときに、認識したい物体をちゃんと認識したモデルを作るのは結構難しかったりします。特に学習に用いるデータが少なくて偏りがあると以下の例のように画像の背景に基づいた分類モデルになってしまうこともあり得ます。 画像引用:https://arxiv.org/abs/1602.04938 この記事では画像の背景の影響を少しでも減らして認識したい物体を認識したモデルを作るための手法として、Orthogonal Sphere Regularizationという正則化があったので試してみます。 今回の記事で参考にした論文はこちら↓ 使用したコードは以下のGitHubリポジトリに置いてあります。PyTorchCNNを構築し、学習はGoogle ColaboratoryのGPUを用いて行なっています。 Orthogonal Sphere Regularizat

    CNNによる画像分類:背景の影響を低減させる正則化 - Qiita
    sh19910711
    sh19910711 2024/06/14
    "CNN: 学習に用いるデータが少なくて偏りがあると以下の例のように画像の背景に基づいた分類モデルになってしまう / OS Regularization: 背景の空の部分の重要度が減少したことが良い効果をもたらした感じ / ord=fro" 2022
  • ArcFaceの仕組み

    角度を用いた距離学習を説明してます。 基的な理論の部分はSphereFaceで説明しています。 最終的にArcFaceの仕組みを理解できるようにするのが目標です。 ArcFaceについては優れた紹介記事がすでにありますが、角度による距離学習がどういったものか、marginを与えるとなぜうまく…

    ArcFaceの仕組み
    sh19910711
    sh19910711 2024/06/14
    "ArcFace: Softmaxの直前の層の捉え方を工夫 + Softmax Lossによって学習された特徴量は本質的には角度によって分布している + ユークリッド距離を元にした方法は適さない" 2019
  • Semantic segmentation 振り返り

    Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation (ICCV2019 oral)

    Semantic segmentation 振り返り
    sh19910711
    sh19910711 2024/06/14
    "CNN: 深い層にいくにつれて見る範囲が広がり、高レベルな特徴が抽出 + 解像度が失われていく / 似ているクラスを正確に分類するためにはglobalな特徴(context)が重要 + 輪郭を正確にsegmentationするにはlocalな特徴が重要" 2019
  • SSII2024 [OS1] 画像認識におけるモデル・データの共進化

    クロスセクター効果研究会 熊都市交通リノベーション~「車1割削減、渋滞半減、公共交通2倍」の実現へ~

    SSII2024 [OS1] 画像認識におけるモデル・データの共進化
    sh19910711
    sh19910711 2024/06/13
    "人を見なくても人物行動は認識されてしまう + 動画認識における深層学習の背景依存性 / 背景依存性を逆手に取り ~ 背景のミスマッチから教師ラベル生成 / 基盤モデル構築に必要なデータ量は実は多くない"
  • SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望

    … … … … … … 𝑧𝑑+1:𝐷 𝑧1:𝑑 𝑧 𝑧1:𝑑 ′ 𝑧𝑑+1:𝐷 ′ 𝑧′ 𝑧′ = 𝑧1:𝑑 , 𝑧𝑑+1:𝐷 + 𝑔 𝑧1:𝑑 𝑔(𝑧1:𝑑 ) 𝑧 = 𝑧1:𝑑 ′ , 𝑧𝑑+1:𝐷 ′ − 𝑔 𝑧1:𝑑 ′

    SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
    sh19910711
    sh19910711 2024/06/13
    "VAE: 潜在変数と画像の正解ペアを自己符号化器の学習で決めた / GAN: 『識別器をだます』という問題にすり替え / ACGANとPix2Pix: 生成画像が満たすべき条件を指定する方法を導入 / CycleGAN: 変換後の画像群を使って学習"
  • Kaggle Image Matching Challenge 2022 まとめ - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今回 Image Matching Challenge 2022 | Kaggle に参加しました 約1ヶ月ほど参加しました 一緒に参加してくださったチームメンバーに圧倒的感謝 arutema47(@arutema47)さん yu4u(@yu4u)さん かまろ/Camaro(@mlaass1)さん s_shohey(@s_shohey)さん 結果は 41 / 653 teams で Silver でした(ぐやじいでず) 悔しいですが学んだことも色々あったので記事に残します あとやってない人からするとこのコンペが何をしてるのか分かりづらい

    Kaggle Image Matching Challenge 2022 まとめ - Qiita
    sh19910711
    sh19910711 2024/06/13
    "2つのカメラと3次元点の空間的対応関係 / 1枚の画像からは奥行きが定まらない / 「3次元点が両カメラ前方に復元される」という条件を加えることで最終的なカメラ姿勢を得る" 2022
  • 画像向けAI異常検知で間違い探しを解いてみた - Insight Edge Tech Blog

    はじめまして、今年の1月にInsight Edgeへ参画したData Scientistの山科です。 まだ加入して数ヶ月ですが、画像を用いた異常検知や予兆保全、オペレーションの最適化、生成AI用いたDX案件など、幅広い技術・分野に携わらせてもらっており、日々、調査にデータ分析の試行錯誤と四苦八苦しながら業務に取り組んでいます。 今回は、画像を用いた異常検知に関する案件でPatchCoreという手法を用いたのですが、使い勝手が良く様々なことに使えそうだなと感じましたので、間違い探しを題材にパラメータのケーススタディをした結果を評価し、どういったことに使えるかを考察していきたいと思います。 目次 画像に対する異常検知手法 AIで間違い探しを解く! 考察 画像に対する異常検知手法 画像認識技術を用いた異常検知の重要性については、藤村さんの記事 でも紹介されている通りで、製造業や農業など幅広い分野

    画像向けAI異常検知で間違い探しを解いてみた - Insight Edge Tech Blog
    sh19910711
    sh19910711 2024/06/12
    "PatchCore: 学習済みモデル用いて正常画像から抽出した特徴量をMemory Bankに保存 + 判定したい画像の特徴量との距離から正常/異常を判定 / 最終層ではなく中間層から特徴量を取得するようにしたことで画像の位置情報も保持"
  • 3D点群学習モデルPointPillarsを学習から評価まで行う|株式会社Rosso公式note

    はじめにこんにちは。株式会社Rosso、AI部です。 近年、LiDARや、デプスセンサーから得られる3次元データを使用した、機械学習モデルの手法が発達しています。 記事では、その中でも、3次元のデータ形式の一つである点群データを使用した物体検出モデル「PointPillars」についてご紹介します。 これらの点群データを用いた機械学習モデルは主に、自動運転に応用されています。 そこで、この記事では、自動運転用データセットであるKITTIを使って、PointPillarsを学習・評価まで行う方法もご紹介します。 点群データと機械学習について点群データとは3次元のデータ(3D)形式の一種で、 3次元情報を座標(x, y, z)で表現するものです。 例えば、点群データのクラス分類を扱っているmodelnet10というデータセットでは、点群データは下記の画像のように表されています。 ①順不変性

    3D点群学習モデルPointPillarsを学習から評価まで行う|株式会社Rosso公式note
    sh19910711
    sh19910711 2024/06/12
    "PointPillars: 点群データを使用した物体検出モデル / 空間を直方体に分割し、その中に含まれる点群を特徴量として使い、疑似画像を生成することで、2Dベースの物体検出モデルを点群データに適用" 2023
  • End-to-End Object Detection with Transformers (DETR) の解説 - Qiita

    最近、Arxiv Sanity Preserverで上位にランクインしていた、Facebookから20/5/27に公開のObject Detection論文 DETRについて解説する。 概要 NMSやRPN等のごちゃごちゃした仕組み無しで、CNN+Transformerの極めてシンプルな構成で真にEnd to Endな物体検出を実現する。 その上で、最近の最前線クラスの物体検出器に匹敵する性能を達成している。 (テクニカルに色々してるが、新規性は従来のRNNをTransformerに置き換えている所) このシンプルな構成のおかげで拡張が容易で、この論文ではDETR物体検出器をSegmentationタスクにも拡張し、SOTA級のアーキテクチャを上回る性能を叩き出している。 NMSをなくして、Transformer化に至るまでの背景 現在よく使われてる物体検出器では、処理の途中過程にあるNM

    End-to-End Object Detection with Transformers (DETR) の解説 - Qiita
    sh19910711
    sh19910711 2024/06/12
    "DETR: CNN+Transformer + End to Endな物体検出 + ハンガリアン法で一意かつ適切な対応付け / object query(学習値)とspatial positional encoding(固定値)の両方を場所毎に使い分けることで精度を上げている" 2020
  • 最近のVisual Odometry with Deep Learning

    社内のCV輪講で使用した資料です。 2017年以降に発表されたDeep Learningを用いたVisual Odometryの手法についてまとめました。

    最近のVisual Odometry with Deep Learning
    sh19910711
    sh19910711 2024/06/10
    "VO; Visual Odometry: 2フレーム以上のカメラ画像間の相対的な姿勢を追跡 / 姿勢の変化を積分 + 大局的なカメラの自己位置を求める / Unsupervised VOの出力を初期値としてTraditional VOを用いるとより正確な推定ができる" 2023
  • 第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料

    第9回全日コンピュータビジョン勉強会にて「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesisについてわりかし徹底解説を行う資料になっています。

    第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料
    sh19910711
    sh19910711 2024/06/09
    "StyleNeRF: 様々な知見を一つの論文で獲得できる1粒でN度美味しい論文 / NN: 小さい変化で大きく変化する高周波な関数を近似するのがNNは苦手 + フーリエ特徴で座標と視点を埋め込んで入力とする" 2022