タグ

2024年6月6日のブックマーク (5件)

  • [論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023 - にんひどりんはんのう

    arxiv.org 歌声変換チャレンジ 概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変換ではなく、より難しい歌声変換を目標としSinging VCC(SVCC)に変更した。 歌声変換が声変換より難しいと考えられる理由は 1) 普通の発話と異なり様々なピッチ、音圧、表現や歌唱のスタイルがある 2) ピッチについては曲の音符に従いつつも、歌い方は歌手によって異なるのでそれらの情報を適切に扱う必要がある 簡単な結果の概要が図1 タスクとデータセット タスクは2つ in-domain SVCとcross-domain SVCで複数話者から一人の話者に変換するany-to-oneのタスク In-

    [論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023 - にんひどりんはんのう
    stealthinu
    stealthinu 2024/06/06
    SVCC(Singing Voice Conversion Challenge)2023には日本からはRIKEN、名大、Parakeetが参加してたんだ。唯一SiFiGAN使ってるT13が名大かな?
  • [論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023 - にんひどりんはんのう

    arxiv.org ASRU2023 VITSベースのSinging Voice Conversion(SVC)モデルの提案 Voice Conversion Challenge 2023 (SVCC2023)に参加したT02チームの手法。 SVCC2023についてはこちらの記事にまとめた。 ninhydrin.hatenablog.com 手法 アーキテクチャ全体像は図2を参照 基的にはVITSをベースとしていて、学習時の入力はF0、スペクトログラム、HuBERTによるSSL特徴の3つになる。 元のVITSではPrior Encoderの入力がテキスト(音素)、Posterior Encoderの入力がスペクトログラムだったのに対し、提案手法ではPrior Encoderの入力をHuBERT特徴量とF0、Posterior Encoderの入力をスペクトログラムとF0に拡張した。 F0

    [論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023 - にんひどりんはんのう
    stealthinu
    stealthinu 2024/06/06
    これMMVCと同じ構成だな。adaptation tricksでDAと複数話者での学習がないと過学習で類似性が大きく低下、というのは参考になった。やっぱ多者での事前学習重要なんだろう。
  • 今時点でUbuntu 22.04から24.04へdo-release-upgradeするためのmeta-releaseをつくった - ぶていのログでぶログ

    Ubuntu 24.04 LTSリリースめでたい 🎉 discourse.ubuntu.com gihyo.jp 早速Ubuntu 22.04からdo-release-upgradeして24.04にしようとしたら新しいLTSバージョンはないと表示される… $ do-release-upgrade Checking for a new Ubuntu release There is no development version of an LTS available. To upgrade to the latest non-LTS development release set Prompt=normal in /etc/update-manager/release-upgrades. mantic(23.10)とjammy(22.04 LTS)からのアップグレードは現時点ではアンロック

    今時点でUbuntu 22.04から24.04へdo-release-upgradeするためのmeta-releaseをつくった - ぶていのログでぶログ
    stealthinu
    stealthinu 2024/06/06
    Ubuntu 22.04 -> 24.04 へのアップグレードは24.04.1が出るまでは do-release-upgrade では出来ないらしい。
  • インターネットの人の終わり: pha『パーティーが終わって、中年が始まる』 - laiso

    phaさん(id:pha)が新刊を出したのをたまたま観測したので読んだ。 パーティーが終わって、中年が始まる (幻冬舎単行) 作者:pha幻冬舎Amazon 個人的には2013年の最初のニートの歩き方』以来だったので10年分のphaさん情報を一気に知れてよかった。僕の認識している最後のphaさんは確か練馬のシェアハウスで相変わらず熊野寮にいる大学生のような生活をしていたと思うが、10年もあればあれから色々あってザ・ノンフィクションに出たりバンドを始めたりして四十代の中年にもなって流石の最強ニートもクライシスの最中にある、というのがこののテーマのようだ。 phaさんとは旧知の仲であるがあまり接点はない。会ったことが数えるぐらいしかないのだけどなぜか会話量に対して関係性が深く、恩人のようなポジションにいる。葬式とかあったら行けたら行くレベル 当ブログの以下の過去記事に練馬のシェアハウス

    インターネットの人の終わり: pha『パーティーが終わって、中年が始まる』 - laiso
    stealthinu
    stealthinu 2024/06/06
    『Webのソフトウェア業界でも「インターネットが好き」という合言葉のような共通価値観がある。これも現在からみたら「水道が好き」のような違和感のある言葉だ』この感覚よくわかる。
  • プロンプトを5倍圧縮できる「LLMLingua-2」

    導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、サービスのシステム開発を行なっています。サービスではLLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 記事では、入力するプロンプトの圧縮を効率的に行うための技術、LLMLingua-2について解説します。 LLMLingua-2は、いくつかの手法を組み合わせることによって、品質を下げないままプロンプトを圧縮してくれます。 サマリー LLMLingua-2は以下の方法で、情報の欠落を抑えた上でプロンプトのトークン数を大幅に減らすことに成功しています。 ターゲットとなるLLM(GPT-4など)にプロンプトの圧縮タスクを行なってもらう そのデータを基に入力したプロンプトを構成するトークンの不要、必要を判断する機械学習モデルを作成する 入力に対して上記機械学習

    プロンプトを5倍圧縮できる「LLMLingua-2」
    stealthinu
    stealthinu 2024/06/06
    プロンプト圧縮する手法。コストや速度面、パフォーマンスで有利になる。GPT使って自動で学習データセット作ってそれにトークンの必要度を判定させる学習モデルを作るという事前準備が必要。