目的 ローカルLLMの推論速度を改善する手法がいくつか報告されています。 今回は実際に報告されている5つの手法を実装して推論速度がどの程度改善するか確認します。 推論処理の高速化手法 1. torch.compile 計算グラフを構築 各演算をCPUやGPUのデバイスに特化した細かい命令に分解 与えられた入力に対して上記の命令を呼び出して演算を効率化 実装 モデルを読み込んだ直後にtorch.compileを追加 model = AutoModelForCausalLM.from_pretrained( model_name, device_map="cuda", trust_remote_code=True, torch_dtype=torch.bfloat16, load_in_8bit=False, load_in_4bit=False, use_cache=False, ).eva
![ローカルLLMの推論速度を高速化する5つの手法と比較評価](https://cdn-ak-scissors.b.st-hatena.com/image/square/c920d27bedd4370fdf6a8f5f6ddccdf1ff527b7f/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs---PWgbZ9I--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E3%252583%2525AD%2525E3%252583%2525BC%2525E3%252582%2525AB%2525E3%252583%2525ABLLM%2525E3%252581%2525AE%2525E6%25258E%2525A8%2525E8%2525AB%252596%2525E9%252580%25259F%2525E5%2525BA%2525A6%2525E3%252582%252592%2525E9%2525AB%252598%2525E9%252580%25259F%2525E5%25258C%252596%2525E3%252581%252599%2525E3%252582%25258B5%2525E3%252581%2525A4%2525E3%252581%2525AE%2525E6%252589%25258B%2525E6%2525B3%252595%2525E3%252581%2525A8%2525E6%2525AF%252594%2525E8%2525BC%252583%2525E8%2525A9%252595%2525E4%2525BE%2525A1%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Akaeru39%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2YwMzhiYTUxODcuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)