「Llama.cpp」のHTTPサーバー機能を試したのでまとめました。 ・Mac M1 1. モデルの準備今回は、「vicuna-7b-v1.5.ggmlv3.q4_K_M.bin」を使います。 ・TheBloke/vicuna-7B-v1.5-GGML ・TheBloke/vicuna-7B-v1.5-16K-GGML ・TheBloke/vicuna-13B-v1.5-GGML ・TheBloke/vicuna-13B-v1.5-16K-GGML 2. ローカルPCでの実行ローカルPCでの実行手順は、次のとおりです。 (1) Llama.cppのインストールとビルド。 $ git clone https://github.com/ggerganov/llama.cpp $ cd llama.cpp $ make(2) modelsフォルダにモデルを配置。 今回は、「vicuna-7b-
![Llama.cpp の HTTPサーバー機能を試す|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/fb601e7797a624e5dc1d544acf469ddefc907789/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F113090729%2Frectangle_large_type_2_63939f796c944baa95ac5d916635aa43.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)