対象読者: ターミナル操作にある程度慣れている方〜これからローカルLLMに挑戦したい方 対応環境: VRAM 16GB / 32GB / 64GB(GPU別に推奨モデルを紹介) この記事で紹介することClaude Codeは本来Anthropic APIに接続して動くコーディングエージェントですが、ローカルで動かしたオープンソースLLMに接続先を差し替えることで、APIコストゼロ・完全オフラインでのコーディング支援環境を構築できます。 この記事では Qwen3.5-35B-A3B と GLM-4.7-Flash を中心に、お手持ちのGPUメモリに合わせた最適な量子化レベルとサーバー設定をまとめます。 参考元: Unsloth公式ドキュメント - Claude Code VRAM別おすすめ構成 — まずここを確認モデルの実行にはモデルファイル本体+KVキャッシュ(推論中のワーキングメモリ)の

