これまでquantizeはllama.cppを使っていたが、GPUを使えなかったのでCTranslate2を使ってみた。 CTranslate2はtransfomer modelのメモリを削減、高速化を行うライブラリ CTranslate2 is a C++ and Python library for efficient inference with Transformer models. https://github.com/OpenNMT/CTranslate2#ctranslate2C++で実装されており、pythonからC++を呼び出している。document通りinstallすると、GPUも利用してくれる。 いろんなモデルが対応している Decoder-only models: GPT-2, GPT-J, GPT-NeoX, OPT, BLOOM, MPT, LLaMa, Co