はじめに 今回の目標はこの巨大モデルLlama-2-70bを動かすことです。 700億パラメータということで、4bit量子化をかけても40GB程度のVRAMが要求されます。残念ながらColabの無料枠には乗りきりません。 今回はPetalsというOSSを使用することで、Colab上での実行を試みます。 Petalsとは 簡単に説明すると、モデルをいくつかに分割し、複数のマシンでそれぞれの演算を担うことで、大規模なモデルでの推論を実現するというものです。 現在ホストされているモデルは、こちらのHealth Monitorで確認することができ、誰でも利用することができます。 サポートされているモデルとしては、BLOOM, LLaMA, Falconなどが挙げられ、どれもOSSとしては最大規模のパラメータを有します。 ホストされているモデルで推論してみる まずはPetalsでホストされているモデ