1.はじめに 通常、姿勢推定などのタスクではヒートマップを使った回帰の手法を使いますが、今回ご紹介するのはヒートマップを使わずに姿勢推定を行うKapaoという技術です。 *この論文は、2021.11に提出されました。 2.Kapaoとは? 通常、姿勢推定などのタスクではヒートマップを使った回帰のアプローチを取りますが、生成と後処理に大量の計算処理が必要です。 Kapao(Keypoints and Poses as Objects)は、もっと処理効率を上げるために、画像を細かなグリッドに分割して、人間のポーズオブジェクトとキーポイントオブジェクトを同時に検出・融合し姿勢推定を行います。 下記は、Kapaoのネットワークの概要です。入力画像を深い畳み込みネットワークでマッピングし、ポーズオブジェクトとキーポイントオブジェクトをそれぞれ検出した後、この2つの情報を融合し結果を得ています。 では
はじめに こんにちは、(株) 日立製作所 Lumada Data Science Lab. の森田です。 Lumada Data Science Lab. では、映像解析技術・映像解析ソリューションの研究開発を行っています。 この記事では、街頭にある防犯カメラの映像に適用する際に重要となる「検知サイズ」の観点で、人物骨格推定OSSの評価を行います。 0. 忙しい方へのまとめ 大型ショッピングモール、スタジアム、駅、空港などの防犯カメラは、広範囲を少ない台数で撮影したいので画角が広角になりがち 広角で撮影した画像は人物は小さく写るので、小さく写る人物の骨格を検出できることが重要 今回は骨格推定AIのOSSとして、openpifpafとtf-pose-estimationをピックアップし、最小検知可能サイズの指標で評価 openpifpafの方が最小検知可能サイズが小さいことを確認 1. 防犯
R&D チームの量子化警察こと徳田(@dakuton)です。 7月のEdge TPUアップデートにあわせて、7/30にPoseNetのEdge TPU版が公開されていた(作者Twitter動画はこちら)ため、今夏初のインターンとしてチャレンジしてもらいました。 Edge TPUアップデート内容については過去記事を参照ください。 tech-blog.optim.co.jp PoseNetとは? TensorFlow.js(TensorFlowのJavaScript版)で動作する姿勢推定モデルです。Webブラウザで人の姿勢がリアルタイムに検出できる(15FPS以上)のが特徴です。 参考記事: Real-time Human Pose Estimation in the Browser with TensorFlow.js | by TensorFlow | TensorFlow | Mediu
Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields arXiv:https://arxiv.org/abs/1611.08050 概要 CNNの組合せで画像内の人物姿勢を検知を達成 NP-hard問題をrelaxationを設けて解く top-downアプローチ(人を検知→検知した人それぞれの姿勢検知)ではなく, bottom-upアプローチ.実時間処理可能. COCO 2016 keypoints challengeとMPII Multi Person benchmarkで好成績を出した Intro 画像に映る人物の姿勢推定の難しさ 人の数,スケール,位置が不定であること 人同士の接触,オクルージョンにより複数人の干渉 人数によって計算量が大きくなること 従来手法は人の検知を行い,その後で個人の姿勢推定を
突然ですが、アニメとかゲームのキャラを自由に動かせたら楽しいと思いませんか? バーチャルYouTuberさんもいいですね。私はシロさんが好きです。それ以外にも自由自在にキャラを動かせたら……と思うと夢が広がりそうです。 色々な手法があるようです。大まかには ・モーションキャプチャーシステムやモーションセンサーでキャプチャ ・カメラ映像からそれっぽく生成 ・あらかじめ大量のモーションを事前登録してその中から再生 ……など 機材用意する手間や費用を考えると、カメラを使えるとお手軽そうです。 カメラ映像からモーションを生成する手法のひとつについて調べてみました。 姿勢推定 CMU(カーネギーメロン大学)で公開された [1611.08050] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields という論文があります
単眼カメラで撮影した映像を入力に、人の姿勢推定から着用する衣服まで再構築するマーカレスパフォーマンスキャプチャ技術を発表 2018-05-16 独マックス・プランク情報科学研究所(Max Planck Institute for Informatics)とスイス連邦工科大学ローザンヌ校(EPFL)の研究者らは、1台の単眼カメラで撮影した映像を入力に、人間のポーズから着用する衣服までを3D再構築するマーカレスパフォーマンスキャプチャ技術「MonoPerfCap」を発表しました。 論文:MonoPerfCap: Human Performance Capture from Monocular Video 著者:Weipeng Xu, Avishek Chatterjee, Michael Zollhoefer, Helge Rhodin, Dushyant Mehta, Hans-Peter
画像処理の研究開発を手掛けるモルフォ(東京都千代田区)は5月10日、AI(人工知能)を活用し、映像に映る人や動物の姿勢を推定する技術を発表した。頭部、手、腕、脚などの部位を検出し、それぞれの動作から姿勢を推定できるという。同日から提供する。 映像から人体18カ所(鼻・眼・耳・首・肩・肘・手首・腰・膝・足首)の特徴点を検出し、姿勢を推定して表示できる。AIの要素技術であるディープラーニング(深層学習)を使うことで、高精度な姿勢推定が実現したという。 従来のモーションキャプチャー技術とは異なり、対象にマーカーを装着する必要がない。低解像度や白黒画像、複雑な背景でも検出できるという。複数人の姿勢推定も可能で、同社が公開した動画には、15人以上を同時検出している様子も収められている。 フィンランドのTop Data Science社と共同開発した。監視カメラの映像を使った異常検知(横たわっている、
Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation https://arxiv.org/abs/1705.00389 関連研究 姿勢推定ではDCNN(Deep Convolutional Neural Nets)でheatmapを回帰する手法が一般的 しかし、以下の場合では現実ではあり得ない姿勢を出力してしまうことがある 部位のocclusionが大きいとき(以下の画像参照) 背景と部位の類似度が高いとき これを避けるには人体の関節構造についての事前情報が必要。 でも人体の幾何的制約をDCNNに入れ込むのは難しい Adversarial PoseNet 姿勢推定した結果が「人体として尤もらしいか」をimplicitに学習させるために、GANの枠組みを利用。 通常GANで
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く