参照論文情報 タイトル:LLM in a flash: Efficient Large Language Model Inference with Limited Memory 著者:Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rastegari, Mehrdad Farajtabar 所属:Apple URL:https://arxiv.org/abs/2312.11514 本記事の関連研究:LLMへの入力プロンプトを「意味を保持したまま」高度に圧縮する技術『LLMLingua』 研究背景 LLMは高性能ですが、多くの計算能力とメモリ(情報を一時的に保存する部分)を必要とします。 そのためメモリ容量が限られているデバイス