並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 21 件 / 21件

新着順 人気順

"depth prediction"の検索結果1 - 21 件 / 21件

  • [Stable Diffusion] Depth-to-Imageモデルを学習なしで特定のドメインに適応させる

    はじめに こんにちは。なんかです。 早速本題に入ります。 [2023/01/20追記] この記事で説明しているDepth-to-Imageモデルのドメイン適応と、適応したモデルのAUTOMATIC1111さんのWebUIでの使用が行えるColab Notebookを公開しました。 こんな感じで使えます Depth-to-Imageモデルの説明 StabilityAIが公開したStable Diffusion V2系のモデルの中に、depthモデルというものがあります。 このモデルができることは、一般的なStable Diffusionのimg2imgができることと基本的には同じで、画像とテキストを入力とし、入力された画像スタイルをテキストの指示に従って変換する、というものです。 まずは、一般的なモデル(ここではWaifu Diffusion V1.4 Epoch1を使用しています)のimg

      [Stable Diffusion] Depth-to-Imageモデルを学習なしで特定のドメインに適応させる
    • 【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向

      【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向 Localization, Mappingとは? 人間は、知覚機能を用いて、自分が何歩動いたかなどの自己の動作や、周辺の環境を認識します。そして、その認識を頼りにして、複雑な3D空間の中で自分の位置を特定します。 この自己動作の認識や、特定した自己位置を用いて、目的地へ移動したり、体の運動制御が可能になります。 自動運転車やドローンなどの自律ロボットも、同様に、センサー情報を用いて、環境を認識し、自己位置を推定することで、次の動作などの決定を行うことができます。 自律ロボットが、高度な自律性を実現するためには、正確でロバストな自己位置の獲得と、様々な状況に適応するための世界モデルの段階的な構築と維持が必要にな

        【論文読み】A Survey on Deep Learning for Localization and Mapping - 自律ロボット × Deep Learning の研究動向
      • 機械学習開発のための学習済モデル - KADOKAWA Connected Engineering Blog

        はじめに 株式会社KADOKAWA ConnectedのKCS部Cloud Native課の夏目です。最近は産業におけるディープラーニング(ディープニューラルネットワーク、以下「DNN」)の適用が幅広く進んでいます。私(夏目)はSmartCity研究所にて画像認識を利用するプロジェクトで業務を行なっています。今回は初心者のかた向けに、主に画像・映像の認識を行なうための機械学習およびDNNの学習済モデル、そのモデルを利用した転移学習について紹介したいと思います。 教師あり学習の課題 機械学習の1つの手法として、教師あり学習がありますが、教師あり学習ではラベル付け(アノテーション)された学習用のデータが必要になります。一般的に学習用のデータが少ないと精度に影響が出ます(精度が低くなる可能性がある)ので、ある程度学習用データを集める必要があります。しかし、学習用データを数多く揃えるのは難しい場合

          機械学習開発のための学習済モデル - KADOKAWA Connected Engineering Blog
        • struct2depth(距離推定)を動かしてみた - ハードウェア技術者のスキルアップ日誌

          久しぶりにGITHUBで公開されているDeep Learningのネットワークを動かしてみました。今回はtensorflowのソース内にあるstruct2depthです。慣れていればどうってことないのでしょうか、初見でつまずいてしまったので、手順を記録しておきます。 struct2depthとは? Google Brainが開発した、単眼カメラから深度とエゴモーション(カメラ自身の動き)を推定する手法です。取得するのが難しい、距離の正解情報を必要とせずに距離推定器を学習させることができるのが特徴です。 プロジェクトサイト https://sites.google.com/view/struct2depth 動作環境 ● OS : Windows 10 Home (64bit) ● Python 3.5 ● Anaconda 4.2.0 ● Tensorflow 1.12.0 手順 ① GI

            struct2depth(距離推定)を動かしてみた - ハードウェア技術者のスキルアップ日誌
          • Top Machine and Deep Learning Research Papers - Fritz ai

            Having had the privilege of compiling a wide range of articles exploring state-of-art machine and deep learning research in 2019 (you can find many of them here), I wanted to take a moment to highlight the ones that I found most interesting. I’ll also share links to their code implementations so that you can try your hands at them. Contrastive Representation Distillation This paper in the model di

              Top Machine and Deep Learning Research Papers - Fritz ai
            • Deep learning on computational biology and bioinformatics tutorial: from DNA to protein folding and alphafold2 | AI Summer

              AlphaFold 2 paper and code is finally released. This post aims to inspire new generations of Machine Learning (ML) engineers to focus on foundational biological problems. This post is a collection of core concepts to finally grasp AlphaFold2-like stuff. Our goal is to make this blog post as self-complete as possible in terms of biology. Thus in this article, you will learn about: The central dogma

                Deep learning on computational biology and bioinformatics tutorial: from DNA to protein folding and alphafold2 | AI Summer
              • GitHub - sxfduter/monocular-depth-estimation

                3D Packing for Self-Supervised Monocular Depth Estimation paper code Self-supervised Learning with Geometric Constraints in Monocular Video Connecting Flow, Depth, and Camera paper SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation paper HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE? paper Instance-wise Depth and Motion Learning from Monocular Videos pap

                  GitHub - sxfduter/monocular-depth-estimation
                • Self-driving Research in Review: ICRA 2019 Digest

                  By: Peter Ondruska, Director, Research; and Guido Zuidhof and Lukas Platinsky, Software Engineers Those of you who read our CVPR Digest know that we’ve begun sharing our internal team conference digests to make it easy to find self-driving resources from popular conferences. This week, we’re sharing what we gathered from the International Conference on Robotics and Automation (ICRA) 2019. ICRA is

                    Self-driving Research in Review: ICRA 2019 Digest
                  • stabilityai/stable-diffusion-2-1 · Hugging Face

                    Stable Diffusion v2-1 Model Card This model card focuses on the model associated with the Stable Diffusion v2-1 model, codebase available here. This stable-diffusion-2-1 model is fine-tuned from stable-diffusion-2 (768-v-ema.ckpt) with an additional 55k steps on the same dataset (with punsafe=0.1), and then fine-tuned for another 155k extra steps with punsafe=0.98. Use it with the stablediffusion

                      stabilityai/stable-diffusion-2-1 · Hugging Face
                    • MotoJapan's Tech-Memo

                      最近Raspiの環境構築を月10回くらいのペースでやっているので忘れやすいものをメモ 1. SDカードのマウント先を調べる diskutil list 以降は、disk3(disk3s1, disk3s2)がSDカードのマウント先という前提で進める 2. SDカードをフォーマット 下記コマンドで、アンマウントからフォーマットまでされる diskutil eraseDisk MS-DOS boot disk3 3.イメージ書き込み rdiskを指定すると、高速書き込みモード sudo dd bs=1m if=raspi.img of=/dev/rdisk3 14922+0 records in 14922+0 records out 15646851072 bytes transferred in 677.499756 secs (23094991 bytes/sec) おまけ ディスクユー

                        MotoJapan's Tech-Memo
                      • 教師なしマルチフレーム単眼深度に対するオブジェクトの動きとオクルージョンの解きほぐし

                        Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth 従来の自己監視単眼深度予測方法は、静的環境の仮定に基づいており、オブジェクトの動きによって引き起こされる不一致と閉塞の問題により、動的シーンの精度が低下します。既存の動的オブジェクトに焦点を当てた方法は、トレーニング損失レベルでの不一致の問題を部分的にしか解決しませんでした。したがって、本論文では、予測損失レベルと監視損失レベルの両方でこれらの問題を解決するための新しいマルチフレーム単眼深度予測方法を提案します。 DynamicDepthと呼ばれる私たちの方法は、自己監視型のサイクル一貫性のある学習スキームを介してトレーニングされた新しいフレームワークです。不一致の問題を解決するためにオブジェクトの動きを解きほぐすため

                          教師なしマルチフレーム単眼深度に対するオブジェクトの動きとオクルージョンの解きほぐし
                        • *Interp移植録 - 単眼視深度推定 / SC-Depth (OnnxInterp) - Qiita

                          0.Prologue 暇つぶしに、興味を引いた DNNアプリを *Interpに移植して遊んでいる。 本稿はその雑記&記録。 数年前になるが、MiDaSと言う単眼視深度推定(Monoular depth estimation)モデルを Nerves/Raspberry-pi3で動かして遊んでみた。数ある単眼視深度推定モデルの中から MiDaSを選んだ理由は、ロバスト性に優れているという触れ込みだったからだ。なんでも、互換性の乏しい複数のデータセットに、ゴリゴリと工夫を凝らして学習しているそうだ。深度アノテーション付きのデータセットを作成するコストが高いため、在りもので賄おうということのようだ。どうやら深度推定では、学習に用いるデータセットを用意するところに一つ目の大きな課題があるらしい。 課題があればその解決を目指すリサーチャーがいて、"Self-Supervised Monocular

                            *Interp移植録 - 単眼視深度推定 / SC-Depth (OnnxInterp) - Qiita
                          • CoreMLの練習にDepth PredictionができるmacOSアプリをつくりました。 - Asus4 onD

                            github.com 近頃macOSを開発に全く使ってなく、面白そうなアップデートに全く追従できていなかったので、サンプルが少ないCoreMLをmacOSから使うアプリを作りました。GitHubのReleasesからビルド済のアプリをダウンロードできます。PythonのMLライブラリ等と違い、ライブラリのインストール要らずで使えるのが一番の利点ですね。 Appleが既に用意してくれているFCRN-DepthPredictionモデルを使いました。 developer.apple.com *.mlmodelファイルをXcodeにドロップするだけで、クラスとして読み込まれます。パスからファイルを読み込むなどは必要なく、非常にシンプルです。 CoreML model on Xcode inputs,outputsの情報もXcodeのインスペクタから見れるのも便利。今回のモデルは低解像度で160x

                              CoreMLの練習にDepth PredictionができるmacOSアプリをつくりました。 - Asus4 onD
                            • VisualSLAMによる単眼深度予測のオンライン適応

                              Online Adaptation of Monocular Depth Prediction with Visual SLAM CNNによる正確な深度予測の機能は、強化されたカメラ追跡や高密度マッピングなどの実用的なビジュアルSLAMアプリケーションで広く使用するための主要な課題です。このホワイトペーパーは、次の質問に答えることを目的としています。SLAMのパフォーマンスを向上させるために、CNNが現在の動作環境用にトレーニングされていない場合でも、視覚的なSLAMアルゴリズムを使用して深度予測CNNを調整できますか?この目的のために、2つの補完的なプロセスで構成される新しいオンライン適応フレームワークを提案します。1つはキーフレームを生成して深度予測を微調整するために使用されるSLAMアルゴリズム、もう1つはオンライン適応深度を使用してマップの品質を向上させるアルゴリズムです。ノイズの

                                VisualSLAMによる単眼深度予測のオンライン適応
                              • 画像から深度を推定するMiDaS - Qiita

                                画像から深度マップを取得したい 特別なカメラやセンサーやステレオ画像なしで、シンプルに一枚の画像から深度マップを得たい。 Monocular Depth Estimation で取得できる。 Monocular Depth Estimation機械学習モデルMiDaSで、単一画像から深度を取得できる。 モデルの初期化。 import torch model_type = "MiDaS_small" midas = torch.hub.load("intel-isl/MiDaS", model_type) device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu") midas.to(device) midas.eval() img = cv2.imread("pexels-pixaba

                                  画像から深度を推定するMiDaS - Qiita
                                • Tensorflowの深度推定モデルを試してみる - Qiita

                                  はじめに 本記事では、ディープラーニングを使って作成した、1枚のRGB画像から深度推定(Depth Prediction)を行うモデルを動かしてみたので、その内容を共有します。 ちなみに、ディープラーニング、Tensorflowについて初心者が記載しているので、その点ご了承ください。 深度推定は何に使うのか? 深度推定は、単眼カメラでとらえた映像から、そこに写っているものの距離の割り出しを行い、周辺環境を三次元的に捉えるのに役立ちます。 そのため、主な用途の一つに、ステレオカメラを搭載できないロボットやドローン、自動車などにおける自動運転を行う際の、周辺空間の三次元地図の作成と自位置の推定(これは、SLAM: Simultaneous Localization and Mapping 技術と呼ばれています)への利用があります。 今回試してみた手法 ディープラーニングによる深度推定は、色々な

                                    Tensorflowの深度推定モデルを試してみる - Qiita
                                  • Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving - arutema47's blog

                                    密、かつ高精度な点群をステレオカメラによって得る研究。Depth prediction Networkの提案により高精度な点群の生成に成功している。 従来のステレオカメラは深度情報(カメラからの距離)のみしか得られなかったが、この研究では3D点群(つまりX,Y,Z座標)を獲得する。 高密度、高精度な3D点群をステレオカメラで得るメリットは: 1) LiDARベースの3D物体検出技術がステレオカメラに適応可能になる。 2) LiDARの高密度化に使える。 ( 黄色のとてもスパースな点群がLiDARで実際に観測した点群。 赤、紫が従来のステレオカメラベースの点群である一方、本技術の点群は青。驚くべきことに高精度+高密度! というかLIDARより密度が高いのでかなりブレークスルー。 LiDARで点群密度を上げるのはかなり大変で機器のコストもかなり上がる(数十倍とか)。 LiDARを使わない3D物

                                      Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving - arutema47's blog
                                    • ShoeRinsics:固有の分解を伴う法医学のための靴型予測

                                      ShoeRinsics: Shoeprint Prediction for Forensics with Intrinsic Decomposition 靴の踏み板の印象は、犯罪現場に残された最も一般的な種類の証拠の1つです。ただし、そのような証拠の有用性は、膨大な数の異なる靴モデルをカバーする履物の印象パターンのデータベースの欠如によって制限されています。オンライン小売業者が収集した靴のトレッド写真を活用して、このギャップに対処することを提案します。真の印象やトレッドパターンの3D形状は利用できないため、主要な課題は靴の写真から印象パターンを予測することです。単一のトレッド写真から固有の画像分解(深度、法線、アルベド、および照明の予測)を実行するモデルを開発します。私たちがShoeRinsicsと呼ぶ私たちのアプローチは、完全に監視された合成データと監視されていない小売画像データの組み合

                                        ShoeRinsics:固有の分解を伴う法医学のための靴型予測
                                      • Semi-MoreGAN:雨の除去の混合物のための新しい半教師あり生成的敵対的ネットワーク

                                        雨は最も一般的な天気の1つであり、特に大雨の条件下では、画質を完全に低下させ、多くのコンピュータービジョンタスクのパフォーマンスを妨げる可能性があります。 (i)雨は、雨の筋と雨のかすみの混合物です。 (ii)シーンの深さは、雨の縞の強度と雨のかすみへの変換を決定します。 (iii)ほとんどの既存の排水方法は、合成雨画像でのみトレーニングされているため、実際のシーンへの一般化は不十分です。これらの観測に動機付けられて、4つの主要なモジュールで構成される新しいSEMI監視の雨除去生成敵対的ネットワーク(Semi-MoreGAN)を提案します。(I)正確な深度推定を提供する新しい注意深度予測ネットワーク。 (ii)詳細な画像コンテキスト特徴を生成するためのいくつかの適切に設計された詳細な残余ブロックで構成されるコンテキスト特徴予測ネットワーク。 (iii)ピラミッド深度誘導非ローカルネットワー

                                          Semi-MoreGAN:雨の除去の混合物のための新しい半教師あり生成的敵対的ネットワーク
                                        • MDS-Net:マルチスケール深度層別化ベースの単眼3Dオブジェクト検出アルゴリズム

                                          MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object Detection Algorithm 単眼3Dオブジェクトの検出は、深度情報が不足しているため、自動運転では非常に困難です。本論文では、マルチスケール深度層化に基づく一段単眼3Dオブジェクト検出アルゴリズムを提案します。これは、アンカーフリー法を使用して、ピクセルごとの予測で3Dオブジェクトを検出します。提案されたMDS-Netでは、オブジェクトの深度と画像サイズの間に数学モデルを確立することにより、ネットワークの深度予測能力を向上させるために、新しい深度ベースの層化構造が開発されています。次に、新しい角度損失関数が開発され、角度予測の精度がさらに向上し、トレーニングの収束速度が向上します。最適化されたsoft-NMSは、候補ボックスの信頼性を調整す

                                            MDS-Net:マルチスケール深度層別化ベースの単眼3Dオブジェクト検出アルゴリズム
                                          • 単一の正距円筒図法画像からの歪みを意識した自己監視360°深度推定

                                            Distortion-Aware Self-Supervised 360° Depth Estimation from A Single Equirectangular Projection Image 360°画像は過去数年間で広く利用可能です。この論文は、開放環境下での単一の360°画像深度予測のための新しい技術を提案した。 360°の単一画像からの深度予測は、2つの理由から簡単ではありません。 1つは、監視データセットの制限です。現在利用可能なデータセットは、屋内シーンに限定されています。もう1つは、正距円筒図法(ERP)によって引き起こされる問題で、360°画像に一般的に使用されます。これは座標と歪みです。キューブマップ投影を使用して6つの透視画像を生成し、これらの問題に対処するために透視深度予測に動画を使用した自己監視学習を適用する方法は1つしかありません。既存の方法とは異なり、

                                              単一の正距円筒図法画像からの歪みを意識した自己監視360°深度推定
                                            1