エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
llama-cpp-pythonを用いたllama2制御に必要なVRAMの調査 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
llama-cpp-pythonを用いたllama2制御に必要なVRAMの調査 - Qiita
はじめに llama2をローカルで使うために、llama.cppについて勉強中です。 今回はlama.cppライブラリのPy... はじめに llama2をローカルで使うために、llama.cppについて勉強中です。 今回はlama.cppライブラリのPythonバインディングを提供するパッケージであるllama-cpp-pythonを用いて、各モデルのGPU使用量を調査しようと思います。 また、私の持っているGPUがRTX3060tiのメモリ容量が8GBなので、使用量が8GBに収まるGPUオフロード設定値を見つけたいと思います。 環境 Google Colabratory (GPU: T4) 実際に試してみる 基本はLangChainのチュートリアルをコピペして使いました。 1. GGML-llamaモデルのダウンロード # 7b ggml llama2 !wget -q -P ./models https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGML/resolve/