こんにちは、AIチームの戸田です 今回は近年Transformerの次のアーキテクチャになるのでは?と話題の状態空間モデル、Mambaを使った音声分類を試してみたいと思います。 Mamba Mambaは近年主流となっているTransformerの次のアーキテクチャとして期待されているモデルの一つです。LLMの文脈で目にすることが多いのですが、音声を扱うAudio-Mambaや、画像を扱うVision-Mambaなどの研究もされています。 Mamba自体については本記事では扱いませんので、詳細は論文をご参照ください。 Audio-Mamba https://arxiv.org/abs/2406.03344 Figure 1 Audio-MambaはMambaをベースとした音声分類モデルです。現在主流となっているAudio Spectrogram Transformerと同様、Audio Sp
![Audio-Mambaを使った音声分類 | 株式会社AI Shift](https://cdn-ak-scissors.b.st-hatena.com/image/square/33cda212195811baeaa3bd67de9784a26277b50d/height=288;version=1;width=512/https%3A%2F%2Fwww.ai-shift.co.jp%2Fwp-content%2Fuploads%2F2024%2F06%2Ff81fd2e4c52864042852c112ce927ae2.png)