タグ

ブックマーク / zenn.dev/kaeru39 (1)

  • ローカルLLMの推論速度を高速化する5つの手法と比較評価

    目的 ローカルLLMの推論速度を改善する手法がいくつか報告されています。 今回は実際に報告されている5つの手法を実装して推論速度がどの程度改善するか確認します。 推論処理の高速化手法 1. torch.compile 計算グラフを構築 各演算をCPUGPUのデバイスに特化した細かい命令に分解 与えられた入力に対して上記の命令を呼び出して演算を効率化 実装 モデルを読み込んだ直後にtorch.compileを追加 model = AutoModelForCausalLM.from_pretrained( model_name, device_map="cuda", trust_remote_code=True, torch_dtype=torch.bfloat16, load_in_8bit=False, load_in_4bit=False, use_cache=False, ).eva

    ローカルLLMの推論速度を高速化する5つの手法と比較評価
    misshiki
    misshiki 2024/02/09
    “ローカルLLMの推論速度を改善する5つの手法を紹介、実装し比較しました。”
  • 1