はじめに ノベルワークス所属のザワッチです! たった10秒をインプットさせるだけで、音声クローンを作れると話題の「MiniMax-Speech」を使って、使用感を調査してみました。 MiniMaxとは MiniMaxはシンガポールに本社を置く、マルチモーダルモデルの開発に軸を置いたAIパイオニア企業です。 MiniMax Chat、Hailuo AI、Talkieといった幅広い製品を開発しており、これらのモデルを駆使して、迅速なAIアプリケーション開発を進めることができます。 今回使用する音声クローンモデル「Minimax-Speach」はTransformerベースのText-To-Speachモデルです。 肝なのがエンコーダ層(Encoder)のようで、入力された音声から、その話者固有の声質や話し方といった特徴を抽出します。 すでに学習されているモデルに音声の特徴を加えられるので、人間