タグ

deeplearningとblogに関するslay-tのブックマーク (2)

  • VIBEで、人の動画から3Dモデルを推定する | cedro-blog

    1.はじめに 以前から人の動画から3Dモデルを推定する手法はありましたが、複雑な動きの場合は細部でゆがみやズレが生じていました。今回は、この問題点を改善したVIBEという技術をご紹介します。 *この論文は、2019.12に提出されました。 2.VIBEとは? VIBEとは、Video Inference for Body Pose and Shape Estimation の略で、ディープラーニング を使って、人の動画から3Dモデルを推定する技術です。 使用しているモデルは、SMPL (Skinned Multi-Person Linear model)と言う人間の自然なポーズにおける多種多様な体型を正確に表現するためのモデルです。 このモデルは、N=6890個の頂点を持っており、頂点の重み付き和からP=23個の関節位置を求めることが出来ます。 下記が、VIBEのアーキテクチャーです。入力

  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

  • 1