フェーズボコーダ(英語: Phase vocoder)は音声信号を周波数領域の振幅と位相でモデル化するボコーダである[1][注釈 1]。 フェーズボコーダの心臓部は短時間フーリエ変換 (STFT)であり、次の段階を経る。 分析: STFTによる時間領域表現→時間-周波数表現(英語版)変換 変更: 任意の周波数成分の振幅・位相操作 再合成: 逆STFTによる周波数領域表現→時間領域表現変換 フェーズボコーダは周波数領域での変更処理により音声信号の時間伸縮とピッチ変換などを可能にする。また再合成前にSTFT分析フレームの時間的位置を変更すれば、再合成結果の時間発展を変更でき、たとえば音の時間スケール変更を実現できる。 位相コヒーレンス問題はSTFTによる時間-周波数表現 (STFT表現) の操作で必ず解決が必要な主要問題である。これは、時間軸方向にオーバーラップした分析窓(窓関数)を使用す