はじめに GMO NIKKOの吉岡です。 みなさん、生成AIは活用してますか? ChatGPTに始まり、Claude3やGeminiなど、実用的なAIがどんどん出てきてますね。 自分も使ってはきましたが、課金が気になってしまいます。 これではサービスに組み込むことは難しいですよね。 そのためローカルで動くLLMを追ってきましたが、今年に入って実用的な日本語を返すことができるモデルがいくつか出てきているので、サーバー構成からインストール方法、LLMの起動まで紹介しようと思います。 ローカルLLMを動かす上で一番重要なのはGPUのVRAMです。 LLMは7B、13B、70Bモデルが多いですが、量子化しない場合、必要なVRAM容量は動かすモデルの大体2倍なので、13Bモデルでは26GのVRAMが必要です。 NVIDIAのGPUを使ったCUDAが前提になっているのですが、一般向けでは24Gモデルが
![【Phi-3-Medium】GPU2台構成でローカルLLMを動かす【Ubuntu24】](https://cdn-ak-scissors.b.st-hatena.com/image/square/5a4d78a5b44849ebbb46e4263921e36a89e46491/height=288;version=1;width=512/https%3A%2F%2Ftechblog.gmo-ap.jp%2Fwp-content%2Fuploads%2F2024%2F06%2F82a1502c82b31ff5e6933c311cb06139-1.png)