stealthinuのブックマーク / 2024年6月6日

stealthinu id:stealthinu

2024年6月6日のブックマーク (5件)

[論文メモ] THE SINGING VOICE CONVERSION CHALLENGE 2023 - にんひどりんはんのう
arxiv.org 歌声変換チャレンジ概要 2016年から開始されたVoice Conversion Challenge(VCC)は対象話者への声変換をベース目標としてやってきた。VCC2020では自然性についてはまだ人間レベルではないにしろ正解話者との類似度は非常に高くなった。そこで音声変換ではなく、より難しい歌声変換を目標としSinging VCC(SVCC)に変更した。歌声変換が声変換より難しいと考えられる理由は 1) 普通の発話と異なり様々なピッチ、音圧、表現や歌唱のスタイルがある 2) ピッチについては曲の音符に従いつつも、歌い方は歌手によって異なるのでそれらの情報を適切に扱う必要がある簡単な結果の概要が図1 タスクとデータセットタスクは2つ in-domain SVCとcross-domain SVCで複数話者から一人の話者に変換するany-to-oneのタスク In-
stealthinu 2024/06/06
SVCC(Singing Voice Conversion Challenge)2023には日本からはRIKEN、名大、Parakeetが参加してたんだ。唯一SiFiGAN使ってるT13が名大かな？

deeplearning

音声
リンク
[論文メモ] VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023 - にんひどりんはんのう
arxiv.org ASRU2023 VITSベースのSinging Voice Conversion(SVC)モデルの提案 Voice Conversion Challenge 2023 (SVCC2023)に参加したT02チームの手法。 SVCC2023についてはこちらの記事にまとめた。 ninhydrin.hatena blog.com 手法アーキテクチャ全体像は図2を参照基本的にはVITSをベースとしていて、学習時の入力はF0、スペクトログラム、HuBERTによるSSL特徴の3つになる。元のVITSではPrior Encoderの入力がテキスト(音素)、Posterior Encoderの入力がスペクトログラムだったのに対し、提案手法ではPrior Encoderの入力をHuBERT特徴量とF0、Posterior Encoderの入力をスペクトログラムとF0に拡張した。 F0
stealthinu 2024/06/06
これMMVCと同じ構成だな。adaptation tricksでDAと複数話者での学習がないと過学習で類似性が大きく低下、というのは参考になった。やっぱ多者での事前学習重要なんだろう。

deeplearning

音声
リンク
今時点でUbuntu 22.04から24.04へdo-release-upgradeするためのmeta-releaseをつくった - ぶていのログでぶログ
Ubuntu 24.04 LTSリリースめでたい 🎉 discourse.ubuntu.com gihyo.jp 早速Ubuntu 22.04からdo-release-upgradeして24.04にしようとしたら新しいLTSバージョンはないと表示される… $ do-release-upgrade Checking for a new Ubuntu release There is no development version of an LTS available. To upgrade to the latest non-LTS development release set Prompt=normal in /etc/update-manager/release-upgrades. mantic（23.10）とjammy（22.04 LTS）からのアップグレードは現時点ではアンロック
stealthinu 2024/06/06
Ubuntu 22.04 -> 24.04 へのアップグレードは24.04.1が出るまでは do-release-upgrade では出来ないらしい。

linux

server
リンク
インターネットの人の終わり: pha『パーティーが終わって、中年が始まる』 - laiso
phaさん（id:pha）が新刊を出したのをたまたま観測したので読んだ。パーティーが終わって、中年が始まる (幻冬舎単行本) 作者:pha幻冬舎Amazon 個人的には2013年の最初の本『ニートの歩き方』以来だったので１０年分のphaさん情報を一気に知れてよかった。僕の認識している最後のphaさんは確か練馬のシェアハウスで相変わらず熊野寮にいる大学生のような生活をしていたと思うが、１０年もあればあれから色々あってザ・ノンフィクションに出たりバンドを始めたりして四十代の中年にもなって流石の最強ニートもクライシスの最中にある、というのがこの本のテーマのようだ。 phaさんとは旧知の仲であるがあまり接点はない。会ったことが数えるぐらいしかないのだけどなぜか会話量に対して関係性が深く、恩人のようなポジションにいる。葬式とかあったら行けたら行くレベル当ブログの以下の過去記事に練馬のシェアハウス
stealthinu 2024/06/06
『Webのソフトウェア業界でも「インターネットが好き」という合言葉のような共通価値観がある。これも現在からみたら「水道が好き」のような違和感のある言葉だ』この感覚よくわかる。

net

歴史
リンク
プロンプトを5倍圧縮できる「LLMLingua-2」
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、サービスのシステム開発を行なっています。サービスではLLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。本記事では、入力するプロンプトの圧縮を効率的に行うための技術、LLMLingua-2について解説します。 LLMLingua-2は、いくつかの手法を組み合わせることによって、品質を下げないままプロンプトを圧縮してくれます。サマリー LLMLingua-2は以下の方法で、情報の欠落を抑えた上でプロンプトのトークン数を大幅に減らすことに成功しています。ターゲットとなるLLM(GPT-4など)にプロンプトの圧縮タスクを行なってもらうそのデータを基に入力したプロンプトを構成するトークンの不要、必要を判断する機械学習モデルを作成する入力に対して上記機械学習
stealthinu 2024/06/06
プロンプト圧縮する手法。コストや速度面、パフォーマンスで有利になる。GPT使って自動で学習データセット作ってそれにトークンの必要度を判定させる学習モデルを作るという事前準備が必要。

deeplearning

LLM
リンク
- 2024年6月7日
- 2024年6月6日
- 2024年6月5日