はじめに おれの名前は樋口恭介。Phi-3というMicrosoftから2024年4月23日にリリースされた小規模LLMが、ギリCPUでも動くうえにGPT-3.5よりも精度が高いということで、触ってみることにした。 まずはGoogle Colab上でCPUを選択し、動きを確認したところ、通常モデルでも20分~30分程度で、かなり精度が高い回答が得られ、4bit量子化モデルだと、2分~3分程度で、それなりの出力が得られることがわかった。 そこで、気分がもりあがってきたので、自身のローカルPC(Windows11、GPUなし、メモリ16GB)でも動かしてみることにした。以下はそのときの試行錯誤のメモである(ほぼ趣味の領域の活動だが、業務時間中に行ったので、こうしてちゃんと会社のブログで手順をまとめているというわけだ)。 何も考えずにやるとけっこうハマりポイントが多かった気がするので、ぜひ参考にし
![ローカルLLM"Phi-3"をWindows CPUで動かす](https://cdn-ak-scissors.b.st-hatena.com/image/square/c35f9a393a86bd6595c935d79345f9456ea32012/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--goCD-rbQ--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E3%252583%2525AD%2525E3%252583%2525BC%2525E3%252582%2525AB%2525E3%252583%2525ABLLM%252522Phi-3%252522%2525E3%252582%252592Windows%252520CPU%2525E3%252581%2525A7%2525E5%25258B%252595%2525E3%252581%25258B%2525E3%252581%252599%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3Akyosukehiguchi%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2U2ZDA4MDY5ODcuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fg_south_west%252Ch_34%252Cl_default%3Aog-publication-pro-mark-xcosax%252Cw_34%252Cx_217%252Cy_158%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3AAccenture%252520Japan%252520%252528%2525E6%25259C%252589%2525E5%2525BF%252597%252529%252Cx_255%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EvQUNnOG9jTC1HS3NENWd4Y3BKMzR2cmhUNWJXcmstSk5uZEc1WFpPNThHTnFkQTF1TkVzbGtLcUk9czk2LWM%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)