並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

computer_visionの検索結果1 - 21 件 / 21件

  • Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images

    Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images Following up on the success of the Meta Segment Anything Model (SAM) for images, we’re releasing SAM 2, a unified model for real-time promptable object segmentation in images and videos that achieves state-of-the-art performance.In keeping with our approach to open science, we’re sharing the code and model

      Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images
    • ChatGPTが「ディープフェイク」を見抜く、偽の顔画像と判定した根拠も説明

      (出所:論文「Can ChatGPT Detect DeepFakes?A Study of Using Multimodal Large Language Models for Media Forensics」) インターネットではディープフェイクによる犯罪が相次いでいる。例えばSNSアカウントを作成し、そのプロフィル画像にAIで生成した人物の顔写真を使用する。そしてそのアカウントを使って詐欺を働く。 実在する人物の画像を使うと詐欺がばれやすい。Googleの画像検索などを利用されると、画像の流用に気づかれる可能性が高い。だが、AIが生成した顔写真を使えばその心配はない。 このような悪用を防ぐべく、AIが生成した顔写真を検出する方法がいろいろ提案されている。だがその多くは機械学習に基づいており、専用のプログラミング言語やツールを使用する必要がある。しかも既存の方法のほとんどは、顔写真が本

        ChatGPTが「ディープフェイク」を見抜く、偽の顔画像と判定した根拠も説明
      • 光学ソリューションを提供するエビデントの独自画像解析技術TruAI Noise Reductionの推論処理時間を40%エンハンス - TC3株式会社|GIG INNOVATED.

        光学ソリューションを提供するエビデントの独自画像解析技術TruAI Noise Reductionの推論処理時間を40%エンハンス 背景 エビデント株式会社(エビデント)は、オリンパス株式会社の科学事業を分社化して設立された企業です。ライフサイエンス分野、産業分野向けに生物顕微鏡、工業用顕微鏡、工業用内視鏡、非破壊検査機器、X線分析計等の製品を提供しています。 同社では、脳神経、がん、免疫などの研究分野で、生体深部までの観察・解析をサポートする共焦点レーザー走査型顕微鏡や多光子励起レーザー走査型顕微鏡の提供はもちろん、新たな付加価値機能を提供する手段としてAI技術に注目をし、独自技術の研究開発を行っています。 エビデントのソフトウェア開発部門では、AI技術の研究開発を進めるために、TC3の「伴走型AIプロジェクト支援サービス」を活用し、TC3が保持するTopcoderやその他国内外の腕利き

        • Introducing TextImage Augmentation for Document Images

          Introducing Multimodal TextImage Augmentation for Document Images In this blog post, we provide a tutorial on how to use a new data augmentation technique for document images, developed in collaboration with Albumentations AI. Motivation Vision Language Models (VLMs) have an immense range of applications, but they often need to be fine-tuned to specific use-cases, particularly for datasets contain

            Introducing TextImage Augmentation for Document Images
          • 大規模言語モデルを用いたマイソクPDFからの情報抽出

            PDF 1,3 2,3 3 3 1 2NLPeanuts Inc. 3 estie hongo@nlp.ist.i.kyoto-u.ac.jp shin.kanouchi@nlpeanuts.com {yutaro.saito, tatsuya.iwanari}@estie.co.jp PDF PDF OCR 2 Accuracy 0.92 65% 1 PDF 1 PDF 1 PDF PDF PDF PDF OCR LLM OCR PDF OCR LLM OCR LLM End-to-End PDF 11 OCR GPT-4[1] 2 Accuracy 0.92 65% 2 [2, 3, 4, 5] [6, 7] [8, 9] GPT-4[1] LLM [10] OCR [11] [12]PDF OCR OCR LLM [13, 14] End-to-End [15] [16] OCR L

            • 【E2E連載企画 第2回】東京の街を学習する:マップレス自動運転のモデル開発

              はじめに こんにちは、End-to-End自動運転開発チーム(以降E2Eチーム)で自動運転システムを開発している堀ノ内と塩塚です。本記事はE2Eチームの取り組みを知ってもらう連載企画の第二弾として、End-to-end自動運転におけるマップ認識のあり方と、実際のTuringの開発状況についてお話します。 Turingでは2025年までに東京の複雑な道路を30分以上介入なしで運転できるようなE2E自動運転システムを開発する「Tokyo30」というプロジェクトに取り組んでいます。 私達が目指すE2E自動運転の基本概念については連載企画第1回の以下の記事を参照ください。 End-to-end自動運転におけるマップ認識 E2E自動運転モデルのメインの仕事は、自己車両がどのような経路で進むべきか(Path Planning)を決めることですが、これを賢く行うには、周囲の物体を検出(3次元物体検出)し

                【E2E連載企画 第2回】東京の街を学習する:マップレス自動運転のモデル開発
              • Computer Vision/Deep Learning論文千本ノック vol.2 - deconvo's blog

                誰も読まないだろうが貼っておく、味読・乱読・積読メモ。 https://drive.google.com/file/d/1XHaQNG6d3tXnvLzjvv_Qdj_eWGNfAhS8/view?usp=drive_link

                  Computer Vision/Deep Learning論文千本ノック vol.2 - deconvo's blog
                • 顔なりすまし防止の大規模データセット「CelebA-Spoof」

                  3つの要点 ✔️ 43種類の豊富な属性情報を含む、顔なりすまし防止の大規模データセット「CelebA-Spoof」を提案 ✔️ マルチタスクフレームワーク「AENet」を用いて、顔なりすまし防止のタスクにおいて、属性情報が及ぼす影響を検証 ✔️ 包括的な評価をサポートするため、汎用性の高い3つのベンチマークを提案 CelebA-Spoof: Large-Scale Face Anti-Spoofing Dataset with Rich Annotations written by Yuanhan Zhang, Zhenfei Yin, Yidong Li, Guojun Yin, Junjie Yan, Jing Shao, Ziwei Liu (Submitted on 24 Jul 2020 (v1), last revised 1 Aug 2020 (this version, v

                    顔なりすまし防止の大規模データセット「CelebA-Spoof」
                  • Meta、コンピュータ・ビジョンに革命をもたらす「SAM 2」モデルをオープンソースでリリース | XenoSpectrum

                    Metaが画像・動画セグメンテーションの新たな基盤モデル「SAM 2」を発表し、コンピュータ・ビジョン分野に大きな進歩をもたらしそうだ。このオープンソースモデルは、2023年4月に発表された前身のSAM(Segment Anything Model)を大幅に改良し、画像だけでなく動画のオブジェクトセグメンテーションにも対応している。精度向上と処理速度の6倍高速化を実現したSAM 2は、研究者や開発者のコミュニティに新たな可能性を提供する。 SAM 2は、ビデオと画像のセグメンテーションにおける新しい基準を設定する可能性 ビデオ内のオブジェクトをセグメント化および追跡し、エフェクトを適用できる SAM 2 Web ベース デモのプレビュー。 SAM 2の開発にあたり、Metaは新たな大規模ビデオセグメンテーションデータセット「SA-V」を構築した。このデータセットは約5万1千本の動画から成り

                      Meta、コンピュータ・ビジョンに革命をもたらす「SAM 2」モデルをオープンソースでリリース | XenoSpectrum
                    • Disentangled Representation Learningによる顔のなりすまし検知

                      3つの要点 ✔️ Face Anti-spoofingのタスクにDisentangled Representation Learningを導入して潜在特徴をLiveness FeatureとContent Featureに分解 ✔️ 低レベルのテクスチャ情報と高レベルのDepth情報を組み合わせてLivenessの特徴空間を正則化 ✔️ 代表的なベンチマークによる実験を行い、SOTAと比較して有効性を検証 Face Anti-Spoofing Via Disentangled Representation Learning written by Ke-Yue Zhang, Taiping Yao, Jian Zhang, Ying Tai, Shouhong Ding, Jilin Li, Feiyue Huang, Haichuan Song, Lizhuang Ma (Submitte

                        Disentangled Representation Learningによる顔のなりすまし検知
                      • 顔認識を利用したリアルタイムの出席確認システム「AttenFace」

                        3つの要点 ✔️ 顔認識を利用した出席システムを提案 ✔️ なりすましや抜け出しによる不正も確認可能 ✔️ リアルタイムで出席状況を確認可能 AttenFace: A Real Time Attendance System Using Face Recognition written by Ashwin Rao (Submitted on 14 Nov 2022) Comments: To be published in IEEE CICT 2022 Subjects: Computer Vision and Pattern Recognition (cs.CV) code: 本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。 概要 大学などの授業では、出席を取るのが一般的です。しかし、原始的な方法で行われることが多く、改善の余地

                          顔認識を利用したリアルタイムの出席確認システム「AttenFace」
                        • 【論文要約・解釈】Key-Value Transformer:Attention機構のQueryとKeyは一緒でもいいらしい - Qiita

                          【論文要約・解釈】Key-Value Transformer:Attention機構のQueryとKeyは一緒でもいいらしい論文論文読みAttentionkey-valueTransformer ソリングです.今回はAli Borjiさんの論文「Key-Value Transformer」を要約し,自分なりに解釈します.原文を知りたい方は,以下のリンクから読んでみてください.以下,特に断りのない場合,画像や表などは以下の論文を出典とします. なお,この論文はVision Transformerを理解していることを前提としています.必要に応じてこの記事内でも解説はしたいと思っていますが,もし理解できていない場合は,先にこちらを理解することをお勧めします. 3行要約 ・Query=Keyにして,KeyとValueだけを使うTransformerだよ ・KeyとValueを一緒にしても,そこまで

                            【論文要約・解釈】Key-Value Transformer:Attention機構のQueryとKeyは一緒でもいいらしい - Qiita
                          • 述語論理を用いたユーザの意図に忠実なテキスト-画像拡散モデル

                            述語論理を用いたユーザの意図に忠実なテキスト-画像拡散モデル 拡散モデルは多様で創造的な画像を高品質に生成することができるが,テキストに基づく生成を行うと,テキストが意図する内容を正確に再現することに失敗することが多い.例えば,指定されたオブジェクトが生成されなかったり,形容詞が意図しないオブジェクトを誤って変更したりすることがある.また,オブジェクト間の所有関係を示す関係が見落とされることも多い.テキストに含まれるユーザの意図は多様であるにもかかわらず,既存の手法ではそのような意図の一部しか解決することができなかった. 本研究では,ユーザの意図をより効果的かつ統一的に表現できるフレームワークであるPredicated Diffusionを提案する.この手法では,テキストの意図を述語論理を用いた命題として表現する.そして,拡散モデルの内部にあるアテンションマップの強度がファジィ論理に対応し

                            • 新しい畳み込み演算CDCによる堅牢なFace Anti-spoofing(なりすまし防止)モデル

                              3つの要点 ✔️ CDCと呼ばれる新しい畳み込み演算を導入してCDCNを提案、従来よりも不変で固有な特徴量を抽出、よりロバストなFace Anti-spoofing(FAS)モデルを構築 ✔️ CDCNを拡張したCDCN++を構築、CDCの検索スペースでNAS(Network Architecture Search)によってFace Anti-spoofing向けのアーキテクチャを検索する初のアプローチ ✔️ CDCベースのモデルが未知のなりすまし手法に対してもSOTAを達成し、高いロバスト性を示した Searching Central Difference Convolutional Networks for Face Anti-Spoofing written by Zitong Yu, Chenxu Zhao, Zezheng Wang, Yunxiao Qin, Zhuo Su,

                                新しい畳み込み演算CDCによる堅牢なFace Anti-spoofing(なりすまし防止)モデル
                              • シンプルな混合ネットワーク「MixNet」で、顔なりすまし検知の一般化性能を改善!

                                3つの要点 ✔️ 特定のなりすまし手法の検出に特化したサブネットワークを組み合わせたMixNetを提案 ✔️ 複数のネットワークが補完するため、1つのネットワークで構築されるモデルよりも高い一般化性能を達成 ✔️ 複数のネットワークを組み合わせるシンプルで拡張性が高いフレームワーク MixNet for Generalized Face Presentation Attack Detection written by Nilay Sanghvi, Sushant Kumar Singh, Akshay Agarwal, Mayank Vatsa, Richa Singh (Submitted on 25 Oct 2020) Comments: Accepted at ICPR2020 Subjects: Computer Vision and Pattern Recognition (cs

                                  シンプルな混合ネットワーク「MixNet」で、顔なりすまし検知の一般化性能を改善!
                                • FakeとRealのデータ分布に基づく非対称な学習フレームワーク「Single-Side Domain Generalization」で一般化性能の向上に成功!

                                  FakeとRealのデータ分布に基づく非対称な学習フレームワーク「Single-Side Domain Generalization」で一般化性能の向上に成功! 3つの要点 ✔️ 偽物の顔画像(Fake)が本物の顔画像(Real)よりも分布のばらつきが大きいという特徴に基づき、非対称な新しいエンドツーエンドのSingle-Side Domain Generalization(SSDG)フレームワークを提案 ✔️ Single-Side Adversarial LearningとAsymmetric Triplet Lossを設計して、RealとFakeに適した異なる最適化を実現し、なりすまし検知の一般化性能を向上 ✔️ 代表的なデータセットでSOTAの性能を達成 Single-Side Domain Generalization for Face Anti-Spoofing written

                                    FakeとRealのデータ分布に基づく非対称な学習フレームワーク「Single-Side Domain Generalization」で一般化性能の向上に成功!
                                  • Cannyエッジ検出器(Canny Edge Detector) | CVMLエキスパートガイド

                                    1 概要 Cannyエッジ検出器 (Canny Edge Detector) とは,コンピュータビジョンで用いられる古典的な画像エッジ特徴の検出アルゴリズムである [Canny 1986].微分フィルタを用いるだけの単純なエッジ検出と異なり,一筋に連なっった1画素幅のエッジ群を抽出できる. この記事では,Cannyエッジ検出器の発想とアルゴリズムについて,簡潔に紹介したい. CannyEdge検出器の利点は,抽出されたエッジは物体境界を含んでいることが多く,その後の高次な認式処理に用いやすいエッジ特徴になっているところにある.それまでは,SobelフィルタやPrewittフィルタで抽出していた生なエッジと比べると,Cannyエッジ検出器は綺麗に連なっていて1画素幅のエッジを抽出できる. その後に,機械学習ベースのバウンダリー検出手法に取ってかわられるまで(例:probability bou

                                      Cannyエッジ検出器(Canny Edge Detector) | CVMLエキスパートガイド
                                    • テンソルCNNを用いた欠陥検知の強化

                                      3つの要点 ✔️ 製造業における重要な課題である欠陥検出に向けて、テンソル畳み込みニューラルネットワーク(T-CNN)を紹介します。 ✔️ 超音波センサーの部品における欠陥検出の実際のアプリケーションにおいてその性能を検証しています。 ✔️ 量子化したT-CNNは、モデルパラメータ空間を削減することで、同等のCNNモデルと比較して訓練速度と性能を大幅に向上させています。 Boosting Defect Detection in Manufacturing using Tensor Convolutional Neural Networks written by Pablo Martin-Ramiro,Unai Sainz de la Maza,Sukhbinder Singh,Roman Orus,Samuel Mugel [Submitted on 29 Dec 2023 (v1), l

                                        テンソルCNNを用いた欠陥検知の強化
                                      • 顔のなりすまし検知の分野でのPixel-Wise Supervisionをパワーアップさせる新しいフレームワーク「Pyramid Supervision」

                                        3つの要点 ✔️ 顔のなりすまし検知の分野における既存のPixel-Wise Supervisionの包括的なレビューを提供 ✔️ きめ細かい学習のために、より利用情報の多いマルチスケールの空間コンテキストを提供可能で、既存手法に容易に組み込み可能な新しいPyramid Supervisionを提案 ✔️ 既存のPixel-Wise Supervisionのフレームワークを超える性能を達成、またモデルの解釈可能性を向上 Revisiting Pixel-Wise Supervision for Face Anti-Spoofing written by Zitong Yu, Xiaobai Li, Jingang Shi, Zhaoqiang Xia, Guoying Zhao (Submitted on 24 Nov 2020) Comments: submitted to IEEE T

                                          顔のなりすまし検知の分野でのPixel-Wise Supervisionをパワーアップさせる新しいフレームワーク「Pyramid Supervision」
                                        • 写真とカメラ - ビデオ - Apple Developer

                                          WWDC24 21:52 魅力的な空間写真と空間ビデオの作成 WWDC24 iOS, iPadOS, macOS, visionOS 空間写真と空間ビデオをアプリに取り入れる方法について説明します。さまざまなタイプのステレオスコピック(立体)メディアを紹介し、iPhone 15 Pro上のiOSアプリに空間ビデオを取り入れる方法を解説します。visionOSの新しいQuickLook Preview Application APIなど、空間メディアを検知して表示するためのさまざまな方法を確認しましょう。写真やビデオを空間対応にするメタデータとステレオの概念についても詳しく説明します。 21:18 visionOS向けエンタープライズAPIのご紹介 WWDC24 visionOS visionOS向けの新しいエンタープライズAPIを使用して、Apple Vision Proで従業員やユーザー

                                          • 画像基盤モデルにより専門医に匹敵する膀胱内視鏡診断支援AIを開発

                                            画像基盤モデルにより専門医に匹敵する膀胱内視鏡診断支援AIを開発従来よりも格段に少ない内視鏡画像の学習でも高い診断精度を実現 NEDOの委託事業「人と共に進化する次世代人工知能に関する技術開発事業」(以下、本事業)において、今般、国立研究開発法人産業技術総合研究所(産総研)は、画像基盤モデルを使用して少量の内視鏡画像の学習から高精度に診断する膀胱(ぼうこう)内視鏡診断支援AIを開発しました。 現在、医療分野において画像診断を支援するAIの開発が進んでいますが、医療現場で実際に画像診断支援AIが活用されている領域は限られています。特に患者数や検査数の少ない疾病や希少症例では教師データの収集が難しいため、画像診断支援AIの適用が困難でした。 今回、2種類の数式を併用して自動生成された200万枚の画像から画像基盤モデルを構築した上で、画像基盤モデルに対して従来よりも格段に少ない約9000枚の膀胱

                                              画像基盤モデルにより専門医に匹敵する膀胱内視鏡診断支援AIを開発
                                            1