以下の記事が面白かったので、かるくまとめました。 ・Efficient Inference on a Single GPU - Flash Attention 2 【注意】 この機能は実験的なものであり、将来のバージョンでは大幅に変更される可能性があります。「Flash Attendant 2 API」は近い将来「BetterTransformer API」に移行する可能性があります。 1. Flash Attention 2「Flash Attendant 2」は、Transformerベースのモデルの学習と推論の速度を大幅に高速化できます。 リポジトリのインストールガイドに従って、「Flash Attendant 2」をインストールしてください。これをインストールすることで、HuggingFaceの「Flash Attention 2」の機能も利用できるようになります。 次のモデルは