SuperPrimitive: Scene Reconstruction at a Primitive Level CVPR 2024 Kirill Mazur Gwangbin Bae Andrew Davison Dyson Robotics Lab, Imperial College London Paper Arxiv Video Code TL;DR: Scene 3D reconstruction done at a level of 2.5D image regions, instead of pixels. Joint camera pose and dense geometry estimation from a set of images or a monocular video remains a challenging problem due to its comp
色々な分野で応用され始めているTransformerの簡単な解説と実際に衛星画像を利用した雲判定機械学習モデルを作成していきます。 宙畑の2020年Kagglerのアンケート記事でも触れましたが、最近は自然言語処理で使われていたTransformerという技術が、自然言語処理以外の分野でも利用されるようになり、精度の高い結果を出すようになりました。 Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 今回の記事では、Transformer や画像を扱うための Vision Transformer(ViT) についての簡単な解説をおこない、実際に ViT を利用して衛星画像の分類タスクを行います。コードはGoogle Colaboratory(GPU) 上で動かすことを想定していますので、すぐに実行できるようになっています。 Transformer Transfor
ニコン レンズ設計者インタビュー 「土間」と「立体感」 話は2017年11月5日の名古屋に遡る。その日、名古屋ではニコンの創業100周年を記念した「ニコン ファンミーティング キャラバン」が開催されており、われわれPYスタッフもそこへお邪魔して取材をさせていただいた。その時、後藤フェローから「“ニーヨンナナマル”の設計者が来ていますので」とご紹介いただいたのが、今回お話を聞いた原田氏と藤原氏だった。会場の入り口前にあったソファに腰掛けてお話をしたのだが、何しろ急にご紹介いただいたのでそれはインタビューと呼べるような代物ではなく、またお二人はイベント内で登壇される予定で時間も限られていたため、お話をしたのはほんの15分ぐらいだったように記憶している。それなのに、お二人の印象は強烈だった。完全な雑談だったにも関わらず、というか、雑談だったからこそかもしれないが、お二人の「レンズ愛」がひしひしと
最近、Transformerベースのdiffusion modelが高いパフォーマンス(ImageNetのFID基準)を出している。ということで、特に性能の高い最新モデルを2つ紹介する。加えて、これらを調査していたら、それらの性能をさらに底上げする手法とCNNベースでさらに高い性能を出してSOTAを達成したぞという論文にもさらに行き着いたので、それら2本も併せて追加で紹介する。 (追記)2024/2/23に発表されたStable Diffusion 3や2/15に発表されたOpenAIのSoraでは、今回紹介するDiTがDiffusion Transformer(拡散トランスフォーマー)のベース技術に採用されている。 ※以降の図は論文からそのまま引用、もしくはそれに多少の加工を加えたものとなる。 ※以降のpaperswithcodeの順位は2024/1時点 目次 DiT (ICCV'23)
ailia SDKで使用できる機械学習モデルである「DPT」のご紹介です。エッジ向け推論フレームワークであるailia SDKとailia MODELSに公開されている機械学習モデルを使用することで、簡単にAIの機能をアプリケーションに実装することができます。 DPTの概要DPT(DensePredictionTransformers)はIntelが2021年3月に公開したTransformerを画像に適用したセグメンテーションモデルです。画像のセグメンテーションと、単眼デプス推定を行うことができます。単眼デプス推定では相対的な性能が最大で28%向上しています。セマンティックセグメンテーションではADE20Kにおいて49.02%のmIoUを達成し、SOTAとなっています。
Swin Transformerを超える最先端画像認識モデルDeformable Attention Transformerを詳細解説! 2022.01.13 AI論文 画像処理 はじめに 中国の清華大学を中心とした研究チームが、現在多くの画像認識タスクでSOATモデルとされる SwinTransformer を超える Deformable Attention Transformer(DAT)を発表しました。Attention 範囲をより妥当な範囲に絞り込む Deformable Attention を利用することで、性能改善を果たしています。 概要 近年 Attention 機構を利用した Transformer は自然言語処理の分野で目覚ましい性能をみせ、自然言語分野ではデファクトスタンダードとなりました。画像処理分野ではConvolution 機構を利用している CNN がデファクト
概要 CVPR 2023 会議全体を可視化したグラフを眺めながら論文検索できるWebサイトを作成したので紹介します。 会議に採択された論文全体を可視化したグラフから、 カテゴリやアプリケーションが近い論文を探せます。 テキスト検索ではない方法で、広い視野で論文を探せます。 会議全体で盛り上がっている分野や、逆にニッチな分野を把握することもにも役立ちます。 研究テーマを模索している方や、広い視野で業界動向を知りたい方におすすめです。 yuukicammy--conference-projector-wrapper.modal.run 概要 はじめに Conference Projector で何ができるか システム概要 実装詳細 (1) スクレイピング (2) カテゴリ、アプリケーションなどのテキスト生成 (3) Embedding (4) PDFからの画像抽出 (5) 次元圧縮 (6) K
Improving Diffusion Models as an Alternative To GANs, Part 1 This is part of a series on how NVIDIA researchers have developed methods to improve and accelerate sampling from diffusion models, a novel and powerful class of generative models. Part 2 covers three new techniques for overcoming the slow sampling challenge in diffusion models. Generative models are a class of machine learning methods t
1.はじめに 今回ご紹介するのは、1枚の写真から3Dモデルを推定するモデルの最新版である、ECONという技術です。 2.ECONとは? 従来のモデル推定は、正面図と背面図を推定したものをそのまま使ってモデル推定していました。ECONでは、この2つを組み合わせて下記の3点を最適化することで完成度を上げています。 高周波数のサーフェスの詳細が法線マップと一致する不連続性を含む低周波数のサーフェスのバリエーションが SMPL-X サーフェスと一致する前後の2.5D曲面のシルエットは互いに首尾一貫している。 3.コード コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Open in Colab」ボタンをクリックすると動かせます。 まず、下記のコード
今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。 元々は、前回開催したコンピュータビジョン勉強会@関東「深層学習+3D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。 最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。 調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か?というのはよくわかりませんでした。ただ、PointBERTの
These research papers are the Open Access versions, provided by the Computer Vision Foundation. Except for the watermark, they are identical to the accepted versions; the final published version of the proceedings is available on IEEE Xplore. This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein are retained by authors or by oth
こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論
第230回CVIM研究発表会 チュートリアルでの「深層学習を用いた三次元点群処理入門」のスライド資料です 図などは各論文から引用しています
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く