MacでローカルLLMを動かしていて「もうちょっと速ければなぁ」と思ったことはないですか? この記事では、Apple Silicon向けのOSSツール「DFlash」を使って、ローカルLLMの推論速度を最大4.1倍にする方法を解説します。pip install 1行で導入できます。 DFlashとは何かDFlashは「ブロック拡散型スペキュラティブデコーディング」を実装したOSSツールです(MITライセンス、arXiv:2602.06036)。 通常のLLM推論は、トークンを1つずつ順番に生成します。これがボトルネックです。 DFlashのアプローチは違います。 小さなドラフトモデル(約10億パラメータ)が16トークンをまとめて生成する 本体モデルが1回のフォワードパスで16トークン全部を検証する 正しいトークンだけを採用し、間違いがあればそこからやり直す 「下書きを一気に書いて、まとめて

