米Appleは12月12日(現地時間)、iPhoneのようなメモリ容量の限られた端末上でLLM(大規模言語モデル)を実行するための技術に関する論文「LLM in a flash:Efficient Large Language Model Inference with Limited Memory」を公開した(リンク先はPDF)。 タイトルを直訳すると「一瞬でLLM:限られたメモリでの効率的な大規模言語モデル推論」となるが、「LLM in the flash」はフラッシュメモリに収まるLLMという意味も含まれている。 Appleはメモリ容量が限られた端末上でLLMを実行するアプローチとして、この制約に合わせた推論コストモデルを開発することで革新的な手法を編み出したという。 この手法を用いると利用可能なDRAMの最大2倍のサイズのLLMを実行でき、CPUでは従来の方法と比較して4~5倍、GP