こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回は大規模言語モデルをシングルGPUで動かせるという噂のFlexGenについて使ってみて紹介したいと思います。 FlexGenとは FlexGenは、大規模言語モデル(LLM: Large Language Model)をシングルGPU(例えば、16GBのT4や24GBのRTX3090)で実行可能な高スループットな生成エンジンです。 以下がGitHubになります。 FlexGenは、Meta社が開発したOPT(Open Pre-trained Transformer)を動かすことができ、実際にAIアシスタントと会話することができます。 参考までにOPTに関する論文は以下です。 使用環境 Google ColaboratoryのPro環境を使います。モデルのアーキテクチャによって動作させるスペック