並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 17 件 / 17件

新着順 人気順

"panoptic segmentation"の検索結果1 - 17 件 / 17件

  • THETAプラグインでTensorFlow Liteのセグメンテーションをかける - Qiita

    はじめに リコーのYuuki_Sです。 弊社ではRICOH THETAという全周囲360度撮れるカメラを出しています。 RICOH THETA VやTHETA Z1は、OSにAndroidを採用しており、Androidアプリを作る感覚でTHETAをカスタマイズすることもでき、そのカスタマイズ機能を「プラグイン」と呼んでいます。(詳細は本記事の末尾を参照)。 上述の通りTHETAは、カメラでありながらAndroid端末でもあるため、単体で撮影し機械学習の処理をかけて出力することが可能です。 以前、@KA-2さんがTHETAプラグインで連続フレームにTensorFlow Liteの物体認識をかける記事を掲載しましたが、今回はセマンティックセグメンテーションを実施する方法を記載しようと思います。 本記事を参考にすることで、セグメンテーション結果をライブプレビューに反映したり、 下図の様に人物と背

      THETAプラグインでTensorFlow Liteのセグメンテーションをかける - Qiita
    • スッキリわかるAlphaFold2 - どこから見てもメンダコ

      注意: Alphafold2の手法解説です。使い方の説明ではありません 構造生物学ドメインにはある程度の説明をつけます アーキテクチャ設計の意図については個人の考察であり、正しさに何ら保証がありません AttentionとTransformerそのものについての説明は行いません AlphaFold2とは タンパク質折り畳み問題について タンパク質はバイオ・ナノマシン タンパク質立体構造の重要性 データ駆動の立体構造予測 AlphaFold2の概観 4つのモジュール AF2のやってることをざっくり理解する 0. データ準備 MSA (Multiple sequence alignment) の作成 MSAへのBERT風マスク導入 テンプレート構造の検索(任意) 1. Embeddingモジュール 入力データのOne-hot化 MSA Representation Pair Represent

        スッキリわかるAlphaFold2 - どこから見てもメンダコ
      • あのBERTも使える、iPhoneのAIはグーグル発の技術が支える

        機械翻訳などiPhone向けのAI(人工知能)を強化している米Apple(アップル)だが、同社は2022年6月に開催した開発者会議「WWDC 2022」に合わせて、興味深い事実を明らかにした。iPhoneで稼働するアップル製AIの多くは、ライバルである米Google(グーグル)のTransformerベースだったのだ。 Transformerは「自己注意機構(SA、Self-Attention)」と呼ばれる技術で、もともとはグーグルが機械翻訳で使うために開発し2017年に論文で詳細を発表した。人間並みの文章読解能力を備えるBERTや人間が書いたような文章を生成できるGPT-3などの言語モデルで使われていることで知られる。最近はその活躍の場を画像認識やロボット制御、プログラムのソースコード生成など様々な領域に広げている。 グーグルのライバルであるアップルも、実はTransformerの熱心な

          あのBERTも使える、iPhoneのAIはグーグル発の技術が支える
        • Deploying Transformers on the Apple Neural Engine

          An increasing number of the machine learning (ML) models we build at Apple each year are either partly or fully adopting the Transformer architecture. This architecture helps enable experiences such as , , , , and many others. This year at WWDC 2022, Apple is making available an open-source reference PyTorch implementation of the Transformer architecture, giving developers worldwide a way to seaml

            Deploying Transformers on the Apple Neural Engine
          • GitHub - diff-usion/Awesome-Diffusion-Models: A collection of resources and papers on Diffusion Models

            A Survey on Video Diffusion Models Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu and Yu-Gang Jiang arXiv 2023. [Paper] 16 Oct 2023 State of the Art on Diffusion Models for Visual Computing Ryan Po, Wang Yifan, Vladislav Golyanik, Kfir Aberman, Jonathan T. Barron, Amit H. Bermano, Eric Ryan Chan, Tali Dekel, Aleksander Holynski, Angjoo Kanazawa, C. Karen Liu, Lingjie Liu, B

              GitHub - diff-usion/Awesome-Diffusion-Models: A collection of resources and papers on Diffusion Models
            • コンピュータビジョンの最新論文調査 Segmentation 編 | BLOG - DeNA Engineering

              はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている唐澤です。 我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は Segmentation 編として唐澤 拓己(@Takarasawa_)、葛岡 宏祐(facebook)、宮澤 一之(@kzykmyzw)が調査を行いました。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 3D Vision 編 キーポイント検出の手法を用いた物体検出編 Object Tracking 編 論文調査のスコープ 2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回は主に Segmentation 技術に関する最新論文を

                コンピュータビジョンの最新論文調査 Segmentation 編 | BLOG - DeNA Engineering
              • スッキリわかるAlphaZero - どこから見てもメンダコ

                The game of Go has long been viewed as the most challenging of classic games for artificial intelligence 囲碁はAIにとってもっとも困難なボードゲームの一つと考えられてきました (Mastering the game of Go with deep neural networks and tree search | Nature より) Alpha Zero: https://science.sciencemag.org/content/362/6419/1140.full?ijkey=XGd77kI6W4rSc&keytype=ref&siteid=sci (オープンアクセス版) Alpha Go Zero: Mastering the game of Go without human

                  スッキリわかるAlphaZero - どこから見てもメンダコ
                • 画像認識とは?AIを使った仕組みと最新の活用事例

                  近年は、さまざまな分野でAI・人工知能が積極的に導入され始めています。その中には「AIを用いなければ実現できない技術」も多く、もはや私たちにとってAIは欠かせない存在と言っても過言ではありません。 そんな中、AIを活用したサービスとして「画像認識」に注目が集まっているのをご存知でしょうか。今回は、この「画像認識」の仕組みについて詳しく解説していくとともに、活用事例もご紹介していきますので、ぜひ参考にしてみてください。 画像認識のサービス比較と企業一覧 画像認識とは? 「画像認識(Image Recognition)」とは、画像に映る人やモノを認識する技術です。「画像に何が写っているのか」を解析します。画像認識はパターン認識の一種で、近年は深層学習(ディープラーニング)という手法によってさらに精度が向上してきており、多様な分野での導入が進んでいます。 人間の場合であれば、過去の経験をもとに「

                    画像認識とは?AIを使った仕組みと最新の活用事例
                  • Top 10 Python libraries of 2019

                    We hope you enjoy it as much as we did creating it, so here we go! 1. HTTPXAs a die-hard Python fan who usually interacts with APIs, you are probably familiar with the requests library. However, requests will do no good for you if you are using the async paradigm, which is increasingly common in high performance modern applications. To solve this, the awesome Tom Christie and collaborators bring u

                      Top 10 Python libraries of 2019
                    • End-to-End Object Detection with Transformers (DETR) の解説 - Qiita

                      最近、Arxiv Sanity Preserverで上位にランクインしていた、Facebookから20/5/27に公開のObject Detection論文 DETRについて解説する。 概要 NMSやRPN等のごちゃごちゃした仕組み無しで、CNN+Transformerの極めてシンプルな構成で真にEnd to Endな物体検出を実現する。 その上で、最近の最前線クラスの物体検出器に匹敵する性能を達成している。 (テクニカルに色々してるが、新規性は従来のRNNをTransformerに置き換えている所) このシンプルな構成のおかげで拡張が容易で、この論文ではDETR物体検出器をSegmentationタスクにも拡張し、SOTA級のアーキテクチャを上回る性能を叩き出している。 NMSをなくして、Transformer化に至るまでの背景 現在よく使われてる物体検出器では、処理の途中過程にあるNM

                        End-to-End Object Detection with Transformers (DETR) の解説 - Qiita
                      • 画像認識向けTransformerを振り返る - Qiita

                        この頃、バカンスシーズンなのか、ネタ切れなのか、画像向けTransformer論文が一息ついているので、ここでちょっと振り返ってみる。 2017年: そもそもの始まり Attention Is All You Need 自然言語向けに2017年に出たこのGoogle論文で、Attention構造が自然言語の方であっという間に広がる。 当然ながら、この流れで、計算量がかかるAttention部分がどんどんと違う手法で置き換えられた論文が増えてくる。 2019年: 画像認識にうっすらと浸透 画像認識でもConvolutionの代わりにAttentionが使われ始めたので、論文まとめ この記事で書いたように、ConvolutionをAttentionに変えようという論文が2019年からチラホラと出てくる。 この頃は、まだおっかなびっくりAttention構造に取り換えてもいけるぞ、とか、精度変わ

                          画像認識向けTransformerを振り返る - Qiita
                        • 機械学習開発のための学習済モデル - KADOKAWA Connected Engineering Blog

                          はじめに 株式会社KADOKAWA ConnectedのKCS部Cloud Native課の夏目です。最近は産業におけるディープラーニング(ディープニューラルネットワーク、以下「DNN」)の適用が幅広く進んでいます。私(夏目)はSmartCity研究所にて画像認識を利用するプロジェクトで業務を行なっています。今回は初心者のかた向けに、主に画像・映像の認識を行なうための機械学習およびDNNの学習済モデル、そのモデルを利用した転移学習について紹介したいと思います。 教師あり学習の課題 機械学習の1つの手法として、教師あり学習がありますが、教師あり学習ではラベル付け(アノテーション)された学習用のデータが必要になります。一般的に学習用のデータが少ないと精度に影響が出ます(精度が低くなる可能性がある)ので、ある程度学習用データを集める必要があります。しかし、学習用データを数多く揃えるのは難しい場合

                            機械学習開発のための学習済モデル - KADOKAWA Connected Engineering Blog
                          • End-to-End Object Detection with Transformers

                            We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task. The main ingredients of the new framework, called DEtection TRansformer or DET

                            • GitHub - Yutong-Zhou-cv/Awesome-Text-to-Image: (ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

                              Text to Face👨🏻🧒👧🏼🧓🏽 (arXiv preprint 2024) [💬 3D] Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior, Yiqian Wu et al. [Paper] (CVPR 2024) CosmicMan: A Text-to-Image Foundation Model for Humans, Shikai Li et al. [Paper] [Project] (arXiv preprint 2024) Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping an

                                GitHub - Yutong-Zhou-cv/Awesome-Text-to-Image: (ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.
                              • SOLOv2: Dynamic and Fast Instance Segmentation

                                In this work, we aim at building a simple, direct, and fast instance segmentation framework with strong performance. We follow the principle of the SOLO method of Wang et al. "SOLO: segmenting objects by locations". Importantly, we take one step further by dynamically learning the mask head of the object segmenter such that the mask head is conditioned on the location. Specifically, the mask branc

                                • ‘Farewell Convolutions’ – ML Community Applauds Anonymous ICLR 2021 Paper That Uses Transformers for Image Recognition at Scale | Synced

                                  ‘Farewell Convolutions’ – ML Community Applauds Anonymous ICLR 2021 Paper That Uses Transformers for Image Recognition at Scale ICLR 2021 paper An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale suggests Transformers can outperform top CNNs on CV at scale. A new research paper, An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale, has the machine learn

                                    ‘Farewell Convolutions’ – ML Community Applauds Anonymous ICLR 2021 Paper That Uses Transformers for Image Recognition at Scale | Synced
                                  • EfficientPS

                                    Humans from an early age are able to effortlessly comprehend complex visual scenes which forms the bases for learning more advanced capabilities. Similarly, intelligent systems such as robots should have the ability to coherently understand visual scenes at both the fundamental pixel-level as well as at the distinctive object instance level. This enables them to perceive and reason about the envir

                                    1