タグ

音声に関するtjmschkのブックマーク (2)

  • 時間依存メディアについて(カッコカリ)

    時間依存メディアの概要と対応方針の草稿 記事は WCAG 2.0 A (シングルエー) に準拠する場合を想定して、時間依存メディアに関する内容の要約と対応方針の力加減をまとめたものです。 ようは時間依存メディアの項を読むのが苦しいのでマイルドにしてみた結果です。対応方針ほか諸々の内容はツッコミを受けて逐次修正される可能性があります。 対象 「時間依存メディア = 音声または映像」 であり、同時に 「同期したメディア = 音声付きの映像(動画)」 と読み替えて概ね問題ない。 「時間依存メディア」は、時間の経過に従って再生中の内容が連続的に変化する「音声、映像または両方を含むメディア全般」を指す。また、仕様書の中に登場する「同期したメディア」は、特に「音声と映像の両方を含むメディア(音声と動画が同期して変化するメディア)」を指す。 分類と必要な対応 音声しか含まないメディア → 書き起こしテ

    時間依存メディアについて(カッコカリ)
  • 驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応(CloseBox) | テクノエッジ TechnoEdge

    高精度でリアルタイム処理も可能なAI声質変換ソフト(ボイスチェンジャー)「RVC」の記事が大変な反響を呼びました。Stable DiffusionやChatGPTなど生成系AIがメジャー化する中、世間からはそれほど大きな注目を浴びているわけではありませんが、音声AIも驚くべき速度で進化を遂げています。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge 記事中でデモとしてお聞かせしたのは、筆者のの歌声を高精度に再現するもので、それはこのソフトのおそらく最大の特徴を生かしたものではありません。そこで、また実験をしてみることにしました。 今回は、ポッドキャストbackspace.fmを10年近く一緒にやっている友人であるドリキンのAIモデルをRVCで作ってみました。 backsp

    驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応(CloseBox) | テクノエッジ TechnoEdge
  • 1