タグ

ブックマーク / cedro3.com (2)

  • YolactEdgeで、高速に画像から物体を検出し、形を推定する

    1.はじめに 以前、「画像から物体を検知し、形を推定するタスク」を行うMask R-CNNをご紹介しました。今回は、エッジでのリアルタイム処理向けの、処理が高速なYolactEdge をご紹介します。 *この論文は、2020年12月に提出されました。 2.YolactEdgeとは? まず、YolactEdgeのベースであるYolactのフロー図を示します。 まず、Feature Backbone(CNNネットワーク)で画像から Feature Pyramid(特徴量をまとめたピラミッド)を抽出します。そして、Protonet で画像全体の全てのマスクを生成し、Prediction Head+NMSで各マスクの信頼度を求め、この2つを結合します。その後、Crop+Threshholdを行い出力を得ます。マスク生成と信頼度計算を並行して動かすのが高速化の秘密です。 このプロセスを改良し、さらな

  • VIBEで、人の動画から3Dモデルを推定する | cedro-blog

    1.はじめに 以前から人の動画から3Dモデルを推定する手法はありましたが、複雑な動きの場合は細部でゆがみやズレが生じていました。今回は、この問題点を改善したVIBEという技術をご紹介します。 *この論文は、2019.12に提出されました。 2.VIBEとは? VIBEとは、Video Inference for Body Pose and Shape Estimation の略で、ディープラーニング を使って、人の動画から3Dモデルを推定する技術です。 使用しているモデルは、SMPL (Skinned Multi-Person Linear model)と言う人間の自然なポーズにおける多種多様な体型を正確に表現するためのモデルです。 このモデルは、N=6890個の頂点を持っており、頂点の重み付き和からP=23個の関節位置を求めることが出来ます。 下記が、VIBEのアーキテクチャーです。入力

  • 1